笔记说明:本文是我的学习笔记,大部分内容整理自 黄红梅,张良均等.Python数据分析与应用[M].北京:人民邮电出版社,2018:133-163. 还有部分片断知识来自网络搜索补充。
0.数据来源
来源于这本书,黄红梅,张良均等.Python数据分析与应用[M].北京:人民邮电出版社,2018,的第五章附带数据。
CSDN的数据不可以免费共享,至少要一个金币,有能力的就去下载一下数据下载链接CSDN数据。不方便的,在底下头评论留言,留下邮箱号,我看到之后就会把数据发给你,或者你可以在这本书的出版社网站人民邮电出版社教育社区或者“泰迪杯数据挖掘比赛”泰迪杯数瑞思的网站上找这本书的附带资源,都是免费下载的。
0.1说明
这本书吧,第一部分是pandas和数据库MySQL的对接处理.sql数据。一般的公司的话,有专门的做数据分析的小组或者部门的,需要什么数据跟他们提需求让他们获取,拿.csv就好了。所以我就跳过了sql里面的inner join\outer join\主键合并。我的笔记直接是读取csv数据。
喔还有就是,做这行的话,sql是基础技能,一定要会基础的取数!
1.清洗数据
1.1检测与处理重复值
1.1.1记录重复
import pandas as pd
detail=pd.read_csv("D:\\codes\\python\\data\\detail.csv",
index_col=0,encoding='gbk')
#方法一:定义去重函数
def delrep(list1):
list2=[]
for i in list1:
if i in list1:
if i not in list2:
list2.append(i)
return list2
##去重
dishes=list(detail['dishes_name'])
print('去重前菜品总数是:',len(dishes))
dish=delrep(dishes)
print('方法一去重后数据总数是:',len(dish))
#方法二:利用集合唯一性
print('去重前菜品总数为:',len(dishes))
dish_set=set(dishes)
print(len(dish_set))
这两种方法,区别在,set会将数据顺序打乱。
#方法三:.drop_duplicates
pd.DataFrame(series).drop_duplicates(self,subset=None,keep='first',
inplace=False)
参数名字 | 说明 |
---|---|
subset | 接收string或sequence,表示进行去重的列,默认none,全部列 |
keep | 接收string,表示重复时保留第几个数据 |
keep | first:保留第一个;last:最后一个;false:只要有重复就都不保留。默认first |
inplace | 接收boolean,表示是否在原表上进行操作,默认false |
dishes_name=detail['dishes_name'].drop_duplicates()
print(len(dishes_name))
1.1.2特征重复
这里的重复是指,特征之间的相似度=1!所以可以作为特征工程海筛特征的一步!
method参数可以是:spearman,person,kendall
注意这个不能计算分类变量的相似度。
corrdet=detail[['counts','amounts']].corr(method='spearman')
print(corrdet)
corrdet1=detail[['dishes_name','counts','amounts']].corr(method='pearson')
print(corrdet1)
分类变量的话,可以自己写一个判断特征矩阵是否完全相同的函数
1.2检测与处理缺失值
print('缺失值数目是:',detail.isnull().sum())
print(detail,notnull().sum())
1.2.1删除法
dropna(self, axis=0, how='any', thresh=None,
subset=None, inplace=False)
参数 | 说明 |
---|---|
asix | 0/1,0是对列操作,删除记录行;1是删除列。 |
how | 接收string,表示删除的形式,any表示只要有缺失值就会被删除,all表示当且仅当全部为缺失值时才会执行删除操作,默认any |
subset | 接收array,表示进行去重的行列。默认是none,表示所有行列 |
inplace | 接收Boolean,表示是否在原表上进行操作,默认是false |
print('删除之前',detail,shape)
print('之后',detail.dropna(axis=1).shape)
1.2.2替换法
pd.DataFrame.fillna(self, value=None, method=None, axis=None,
inplace=False, limit=None, downcast=None, **kwargs)
参数 | 说明 |
---|---|
value | 接收scalar,dict,series,dataframe,表示用来替换缺失值,无默认 |
method | 接收待定string。backfill或bfill表示使用下一个非缺失值来填补空缺;pad或ffill表示使用上一个非缺失值来填补,默认none |
axis | 轴向。1为“跨列!”这个词解释很透彻 |
inplace | 接收Boolean,表示是否在原表上操作,默认False |
limit | 接收int,表示填补缺失值个数上限,默认none |
detail=detail.fillna(777)
print(detail.isnull().sum())
1.2.3插值法
常用的插补法有:线性插补、多项式插补(拉格朗和牛顿)、样条插值
这里使用的是scipy包的interpolate模块
还有这个在图像领域常用的插值法是重心坐标插值,BarycentricInterpolator
from scipy.interpolate import interp1d
import numpy as np
x=np.array([1,2,3,<