python 数据训练_python 16 用Python玩转数据练习笔记

eval() 函数,用来执行一个字符串表达式,并返回表达式的值。

score = eval(input("enter the score: "))

1560150-20191111164002403-1787065681.png

第三章 数据获取

抓取: requests库、第三方API抓取解析

解析: BeautifulSoup 库、re模块

BeautifulSoup 是一个可以从html或XML文件中提取数据的Python库。

re正则表达式模块进行各类正则表达式的处理。

抽取豆瓣图书某一页的短评文字输出并计算评分。

importrequestsfrom bs4 importBeautifulSoupimportre

s=0

i=0

r= requests.get('http://book.douban.com/subject/10758624/comments')

soup= BeautifulSoup(r.text,'lxml')

pattern=soup.find_all('span','short')for item inpattern:print(item.string)

pattern_s=re.compile('

p=re.findall(pattern_s,r.text)for star inp:

s+=int(star)

i+=1print(s/i)

缺失值处理--DataFrame

判断缺失值 df.isnull()

删除缺失行 df.dropna()

填充缺失行 df.fillna()

例:使用均值填充

data.fillna(method='ffill',inplace =True)

1560150-20191118173423367-1502847577.png

数据变化常见方法:规范化、连续属性离散化,特征二值化

规范化常用方法:最小-最大规范化: from sklearn import preprocessing

min_max_scaler =preprocessing.minmax_scale(df)

z-score规范化

1560150-20191118180449940-437865012.png

scaler = preprocessing.scale(df)

小数定标规范化

1560150-20191118180545561-689523099.png

连续属性离散化

1560150-20191118180640403-987663960.png

特征二值化 binarization

from sklearn.preprocessing import Binarizer

X=boston.target.reshape(-1,1)

Binarizer(threshold =20.0).fit_transform(X)

1560150-20191118181126845-1871471559.png

直方图

抽样

1560150-20191118181835948-1809953136.png

iris_df.sample(n-10,replace = True) #有放回抽样

分层抽样: iris_df[iris_df.target ==0].sample(frac=0.3)

基本数据特征分析方法

分布分析: 定量数据分析:直方图:plt.hist(iris_df.iloc[:,0],5,color='c')

正态分布检验:scipy.stats.normaltest(iris_df.iloc[:,0])

定性数据分析:iris_df.target.value_counts()

iris_df.target.value_counts().plot(kind='pie') #饼状图

统计量分析describe():集中趋势分析 mean()均值,median()中位数

离中趋势分析 std()标准差,quantile()四分位距

相关分析: 单个图

图矩阵

相关系数:person相关系数:约束条件:两个变量之间有线性关系

均是连续变量

变量均符合正态分布且二元分布也符合正态分布

两个变量独立

r>0正相关 r=0不相关 |r|=1完全线性相关

Scipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值