- 博客(40)
- 资源 (5)
- 收藏
- 关注
原创 python将DateFrame对象数据存储到mysql
import pandas as pdfrom sqlalchemy import create_engine#需要安装pandas,sqlalchemy,pymysql,并mysql数据库创建test库df = pd.read_excel('data/123.xlsx')engine = create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')df.to_sql(name='df', con=eng
2021-09-02 11:22:12 469
原创 python聚类模型KMeans
核心思想:#1.随机生成指定个数质心点,聚类的数量#2.质心点不变,更新类别,计算每个点与质心点的距离,计算出每个点距离哪个质心点最近,类别设置为哪个质心点类别#3.类别不变,更新质心点,所有点按质心点类别分组,没类别求出所有点的特征值的均值,质心点更新#4.新质心点执行第2步,循环调优,直到SSE不在变小#5.搭建好模型后,质心点个数从1到20根据模型求出每种SSE的值,画图得到最优质心点数量#机器学习聚类算法实现:from sklearn.datasets import make_blob
2021-07-27 23:09:16 368
原创 python分类模型KNN
#breast_cancer预测模型(乳腺癌)#从机器学习临近算法包加载分类模型from sklearn.neighbors import KNeighborsClassifier#从datasets加载数据集from sklearn.datasets import load_breast_cancer#从模型加载训练测试分割方法,用于模型评价from sklearn.model_selection import train_test_splitimport numpy as npnp.se
2021-07-25 01:04:56 250 1
原创 pythonk分类模型KNN原理
1.机器学习算法体系机器学习的方法基于数据产生的模型的算法,成为学习算法,包括有监督学习,半监督学习,无监督学习,强化学习有监督学习:数据集样本是否有学习对象标签y,有的话就是有监督学习,反之尝试找一个模型学习特征值x与目标值y之间的关系可分为分类问题和回归问题分类任务中标签y都是离散值(类别型变量)回归任务中标签y都是连续值无监督学习:不带任何标签数据特征进行建模,数据自己学习自己,聚类任务和降维任务半监督学习:标签y有一部分是空值强化学习:将学习看成是试探评价
2021-07-24 21:47:30 399
原创 数据结构-两个栈实现队列的push和pop
"""用两个栈来实现一个队列,完成队列的push和pop操作"""class Solution: def __init__(self): self.stack_a = [] self.stack_b = [] def push(self, item): self.stack_a.append(item) def pop1(self): # b中有数据 if self.stack_b:
2021-07-21 09:12:47 213
原创 链家二手房100页Xpath爬取保存csv
import randomimport timeimport csvimport requestsfrom fake_useragent import UserAgentfrom lxml import etreeclass House: def __init__(self): self.url = 'https://bj.lianjia.com/ershoufang/pg{}/' self.f = open('链家100.csv','w')
2021-06-27 14:37:22 436
原创 python爬虫类模型
author:孙佳星blogs:https://pythonsun.cn爬虫类模型class XXX: def __init__(self): #用处存储 公用变量,方便调用 def get_html(self): #用于获取网页文本数据 def parser_html(self): #用于解析获得文本数据,如:正则表达式,BS4等 def save_html(self): #用于存储解...
2021-06-05 14:27:41 254
原创 python的两种总排序方法
python的两种总排序方法# ------------------全局变量-----------------------#list1 = [23, 3, 65, 32, 12, 34, 55, 18]list2 = [23, 3, 65, 32, 12, 34, 55, 18]# ---------------------函数-----------------------## 升序排序,最小值逐步向前归位:def sort_ascending_1(list_data): cycl
2021-04-27 23:50:07 159
转载 python趣味算法之百钱百鸡问题
"""[公鸡5钱一只,母鸡3钱一只,小鸡1钱三只](https://pythonsun.cn/index.php/post/80.html)问:用100钱买公鸡,母鸡,小鸡各多少只能买100只"""if __name__ == '__main__': """ 只买公鸡最多买20只, 只买母鸡最多买33只, 遍历,两层循环,判断总购买等于100 得出公鸡母鸡小鸡的数量 """ for i in range(1, 21): for
2021-04-27 22:10:39 3228
转载 Python趣味算法1-肇事司机车牌号
""" 肇事司机逃逸,三个人看到车牌的情况: 1.前两个数一样 2.后两个数一样,和前两个不同 3.整个四位是一个数的平方 分析: 1.前后两数一样,通过循环生成一个四位数item 2.由于是四位数31的平方是最后一个三位数,之后都是四位数 3.100的平方是五位数,所以循环是从(31,100) 4.找出k的平方等于item的数"""for i in range(10): for j in r
2021-04-21 08:38:05 1555
转载 python面向对象习题-MVC电脑管理详细过程
"""--------------computer MVC----------------- brang: 品牌 memory: 内存大小 sn: 电脑编码(惟一) cpu: cpu的型号 注:编写流程已标好从第一步到左后一步1,2,3,.....--------------------------------------------"""# 电脑模型类M--(第6步)class ComputerModel: def __
2021-04-20 19:49:28 107
原创 python爬虫爬取网站小说
#加载模块import requestsfrom bs4 import BeautifulSoup# 定义所有章节和链接函数def get_novel_chapters(): url = "https://www.89wxw.com/read/1037/" r = requests.get(url) main_page = BeautifulSoup(r.text, "html.parser") list1 = [] for dd in (main_page
2021-04-04 13:00:03 325
原创 python经典练习100例-07.列表复制
将一个列表的数据复制到另一个列表中在这里插入代码片list1 = [1, 3, 5, 7]list2 = list1[:] # 整常复制print(list2)list3 = list1[::-1] # 逆向复制print(list3)输出结果:[1, 3, 5, 7][7, 5, 3, 1]
2021-03-31 13:28:03 193
原创 python经典练习100例-05.数字排序
输入三个整数,请把这三个数由小到大输出sort(),不加reverse参数为从小到大reverse=True的情况为从大到小list_num = []for i in range(3): item = int(input("请输入整数:")) list_num.append(item)list_num.sort()print(list_num)输入:2,3,1运行结果:[1, 2, 3]...
2021-03-31 13:17:56 164
原创 python经典练习100例-37.列表排序
已知一个列表,升序排序for循环套用l = [70, 5, 93, 3, 9, 2]j = 0for n in range(len(l) - 1): for i in range(j+1, len(l)): if l[j] > l[i]: l[j], l[i] = l[i], l[j] j += 1print(l)运行结果:[2, 3, 5, 9, 70, 93]...
2021-03-30 19:53:51 138
原创 python经典练习100例-36.素数质数求和
题目:求100以内的素数素数就是只能被1和本身整除for中的语句和普通的没有区别,else 中的语句会在循环正常执行完的情况下执行,即for不是通过 break 跳出而中断的.i = 2list1 = []while i <= 100: for j in range(2, i): if i % j == 0: break else: list1.append(i) i += 1print(list1)运.
2021-03-29 22:39:07 857
原创 python经典练习100例-25.阶乘累加
题目:求1+2!+3!+…+20!的和item是:(n-1)! n>=1累乘累加任何大于等于1 的自然数n 阶乘表示方法:n! = 123*…*(n-1)*n或者n! =(n-1)!*nsum1 = 0item = 1for n in range(1, 21): item *= n sum1 += itemprint(sum1)运行结果:2561327494111820313...
2021-03-29 13:15:04 461
原创 python经典练习100例-24.规律分子式求和
题目:有一分数序列:2/1,3/2,5/3,8/5,13/8,21/13…求出这个数列的前20项之和.找规律,分子为上一项分子分母相加,分母为上一项分子a, b = 2, 1list1 = []for i in range(1, 21): list1.append(a / b) a, b = a + b, aprint(round(sum(list1), 2))运行结果:32.66...
2021-03-29 09:23:07 262
原创 python经典练习100例-21.猴子吃桃问题
题目:猴子吃桃问题:猴子第一天摘下若干个桃子,当即吃了一半,还不瘾,又多吃了一个第二天早上又将剩下的桃子吃掉一半,又多吃了一个.以后每天早上都吃了前一天剩下的一半零一个.到第10天早上想再吃时,见只剩下一个桃子了.求第一天共摘了多少.num = 1#第10天剩1个,倒推for i in range(9):#循环到第一天 num = (num + 1) * 2#前一天为当天个数加1和的2倍print(num)#打印第一天摘下的桃子1534个...
2021-03-28 17:11:39 185
原创 python经典练习100例-13.水仙花数
题目:打印出所有的"水仙花数",所谓"水仙花数"是指一个三位数,其各位数字立方和等于该数本身for item in range(100,1000):#所有三位数 i = item // 100#百位 j = item % 100 //10#十位 k = item % 10#个位 if i**3+j**3+k**3 == item:#立方和等于本身 print(item)#输出符合条件数字运行结果:153370371407...
2021-03-28 16:56:06 229
原创 python经典练习100例-1.数字排列
题目:数字1,2,3,4能组成多少个互不相同的且无重复数字的三位数?各是多少?所用知识点:for循环,格式化输出。count = 0#计数for i in range(1, 5):#百位 for j in range(1, 5):#十位 for k in range(1, 5):#个位 if i != j and i != k and j != k:#互不相等 num = i * 100 + j * 10 + k#生成.
2021-03-28 16:16:29 281
原创 python经典练习100例-8.九九乘法表
#分支语句for和while套用使用#方法1,for循环for j in range(1, 10): for i in range(1, j + 1): print("{}X{}={}\t".format(i, j, j * i), end="") print()#方法2,while循环j = 1while j <=9: i = 1 while i <= j: print("{}X{}={}\t".format(i, j
2021-03-27 19:14:20 150
原创 python进行小时分秒的换算
任务要求:1.一次性输入秒数计算距离0:0:0有多少秒 例如:60330->16:45:302.输出该秒数代表的时间:小时:分:秒操作:1.获取数据second = int(input("请输入秒数:"))2.填写数据3.换算时间:hour = second // 3600minute = second % 3600 // 60second1 = second % 604.打印结果print("输入秒换成时间是",hour,":",minute,":",second1)
2021-03-25 00:06:14 4190
原创 python柱形图填充
将画出的柱形图填充各种形状import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams["font.sans-serif"] = "Simhei"#填充符号marks = ["o","X","+","*","O","."]#设置X,Y轴的值y = np.random.randint(10,100,len(marks))x = range(len(mark
2020-06-07 20:58:51 5149 2
原创 python字符串格式化输出的几种方式
三种方法分别为:%,format(),f-stringname = "Allen"address = "CSDN"language= "Pyhton"#用%s输出print("我叫%s,我喜欢在%s学习%s" % (name,address,language))#用format()输出print("我叫{},我喜欢在{}学习{}".format(name,address,language))#用f-string输出,python在3.5以上新功能print(f"我叫{name},我喜欢在{
2020-05-18 10:51:01 394
原创 python学习—简单线性回归模型
初学线性回归,个人表示比较蒙,做下笔记,供自己回看1.加载需要的模块import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionplt.rcParams["font.sans-serif"] = "Simhei"2.读取显示数据data = pd.read_excel("data/LinearRegression.xlsx")data>>&
2020-05-15 15:39:43 695
原创 python中numpy的reshape方法
numpy的reshape()方法用于将数据从新组织,由于保存记录方便查看 import numpy as np a=np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]) a #运行结果 array([[ 1, 2, 3], [ 4, 5, 6], [ 7, 8, 9], [10, 11, 12]]) a.reshape(2,6) #运行结果
2020-05-15 13:37:54 466
原创 python数据分析数据的去重,缺失值的处理
1.1重复值的查看,带参数可以传入列,也可以不带: df.duplicated(subset=" ")1.2重复值的处理(删除) 删除整体数据的重复值,每个字段都一样的行 带参数inplace=True改变原始数据,不带参数默认不改变 df.drop_duplicates(inplace=True) 按照某几列去重,是个列表的形式传入不同的列名: df.drop_duplicates(subset = [ " " , " " ]) 删除后的保留...
2020-05-12 23:30:43 1786
原创 列表表达式爬取红牛分公司数据
列表达式爬取红牛官网分公司信息import requestsimport pandas as pdimport bs4response = requests.get("http://www.redbull.com.cn/about/branch")main_page = bs4.BeautifulSoup(response.text,"html.parser")company = [i.text for i in main_page.findAll("h2")]address = [i.tex
2020-05-11 10:59:44 386
原创 正则表达式爬取红牛分公司数据
正则表达式还是很好玩的,爬取红牛官网分公司信息import requestsimport reimport pandas as pdresponse = requests.get(url="http://www.redbull.com.cn/about/branch")company = re.findall('<h2>(.*?)</h2>', response.text)add = re.findall("<p class=\'mapIco\'>(.*?)&
2020-05-10 23:57:24 404
原创 pandas读取excel文件数据格式被转换
当读取exccel问件时候,纯数字文本格式会被转换成int类型,由于文本格式数据表中会出现类似以0开头的数据,如00123,读取完后数据会变成int格式,而前面的0就会被忽略掉,造成数据被改变,我们在读取时候加入一个参数detype,强制一下格式就行了df = pd.read_excel("路径\abc.xlsx",dtype={"工号": "object"})这样读取后的数据查看df.head() 读入数据后工号数据前面的0就会显示出来前后对比:加参数前 ...
2020-05-09 15:27:30 7983
原创 Python的一只虫子,爬取风景图
实例为爬取天堂图片网旧版,自然风光图片,共有576页,每页20张,可设置参数爬取!import requestsfrom bs4 import BeautifulSoupi =2#i<=10,循环2-10,共9次,10可以改成存在页数的任意值,越大下载越多,此页面存在576页while i<=2: url = "https://www.ivsky.com/Photo/...
2020-05-07 17:38:20 459
原创 python超速下载模块
用pip下载模块时候默认国外网站,各种的慢,卡,断,烦不胜烦介绍一个国内比较快的:清华源https://pypi.tuna.tsinghua.edu.cn/simple使用方法如下:比如制作词云图用到的 jieba 和 wordcloud,只要后面加个参数 -i 后面附上清华源地址就OKpip install jieba -i https://pypi.tuna.tsinghua.edu...
2020-05-06 20:44:16 390
原创 词云图,简单几步,轻松实现
词云图用python轻松实现,使用anconda 的jupyter notebook编写效果图:实现词云图分为简单的几个步骤:1.加载需要的模块,一般 jieba 和wordcloud这两个模块要从新下载pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple 清华源pip install wordcloud -i ...
2020-05-05 15:37:07 3329 3
原创 链家二手房源数据集,练手专用
新爬取源文件未做处理,供python初学做数据分析使用,部分字段是连在一起的涉及字符串分割,还有异常数据等https://download.csdn.net/download/sunjiaxing_1/12390212可以下载练手使用!...
2020-05-05 14:53:49 825
原创 python字符串切割两种方法
获取到数据后,有些列需要拆分开来使用,这就用到了字符串的切割下面用一个简单数据说明数据: 0 1 0 我叫荷花 22 1 你叫啥 18 2 西瓜叫你好 16方法1:df[0].str.split("叫",...
2020-05-05 12:27:07 2166
原创 多个csv文件或者excel读取方法
当遇到数据过大,分为多个文件存储时候,需要同时读取多个文件用os.listdir()获取路径下所有文件1.介绍os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表2.实现方法:#加载模块import pandas as pdimport os#获取路径下表格名字列表listfile=os.listdir(“路径/”)#初始化一个空列表lists =...
2020-05-05 12:21:24 1083
词云图制作,简单几步,轻松实现
2020-05-05
链家二手房交易数据集,爬虫爬取,原始数据,未做处理,csv文件
2020-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人