1、数据导入
- 导入csv文件 read_csv(file,encoding) ;
- 导入文本文件 read_table(file,names=[列名1,列名2],sep="",encoding);
- 导入excel文件 read_excel(filename,sheetname,names);
2、数据导出
- to_csv(filepath,sep=",",index=true,header=true);filepath为导出文件路径;sep分隔符,默认为逗号;index是否导出序号,默认为True;header是否导出列名,默认为True;
3、重复值处理
- 把数据结构中,行相同的数据只保留一行,drop_duplicates();
4、缺失值处理
- 去除结构中值为空的数据;dropna();
5、空格值处理
- 清除字符型数据左右的空格;strip();
6、字段抽取
- 根据已知列数据的开始和结束位置,抽取出新的列;slice(start,stop),只能处理字符串;
7、字段拆分
- 指按照固定的字符,拆分已有的字符串;
- split(sep,n,expand= False) sep表示分割的字符串,n表示分割为多少列,expand为true,返回数据框;为false,返回序列;
8、记录抽取
- 根据一定的条件,对数据进行抽取,类似于excel中的过滤 ;
- dataframe[condition],condition 为过滤的条件,返回DataFrame格式;
9、随机抽样
- 指随机从数据中,按照一定的行数或者比例抽取数据;
- DataFrame.sample(n,frac,replace=False) n表示抽样个数,frac表示百分比抽样,replace表示可放回抽样,默认False表示不可放回;
10、记录合并
- 指将两个结构相同的数据框,合并成一个数据框;
- concat([dataFrame1,dataFrame2]);
11、字段合并
- 将同一个数据框的不同列,进行合并,形成新的列,返回的是序列;
12、字段匹配
- 根据各表共有的关键字段,把各表所需的记录意义对应起来;
- merge(x,y,left_on,right_on) x表示第一个数据框,y表示第二个数据框,left_on 第一个数据框用于匹配的列,right_on 第二个数据框用于匹配的列;返回数据框;
13、简单计算
- 指通过对已有的字段进行加、减、乘、除等运算,得出新的字段过程。
14、数据标准化
- 指将数据按比例进行缩放,使之落入到特定区间,消除量纲的影响。
15、数据分组
- 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,揭示其内在的联系和规律性。
- cut(series,bins,right= True,labels = NULL) series 需要分组的数据;bins 分组的划分数组,right 分组的时候,右边是否闭合;labels 分组的自定义标签,可以不定义;
16、时间处理
- 时间处理,指将字符型的时间格式数据,转换为时间型数据的过程 datetime = pandas.to_datetime(dateString,format) %Y代表年份;%m代表月份;%d代表日期;%H代表小时;%M代表分钟;%S代表秒
- 时间格式化,指将时间型数据,按照指定格式,转化为字符型数据 dateTimeFormat = datetime.dt.strftime(format)
- 日期抽取,是指从日期格式里面,抽取出需要的部分属性 datetime.dt.XX;XX 可以是year,month,weekday,day,hour,minute,second
17、时间抽取
- 指根据一定的条件,对时间格式的数据进行抽取;
- 根据索引进行抽取,DataFrame.ix[start:end]、DataFrame.ix[dates];
- 根据时间列进行抽取,DataFrame[condition]
18、虚拟变量(哑变量/离散特征编码)
- 用来表示分类变量,非数量因素可能产生的影响。
- 若离散特征的取值之间有大小意义,如尺寸 ,pandas.Series.map(dict) ;
- 若离散特征的取值直接没有大小意义,如颜色 ,pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na= False,columns =None,drop_fist= False), data 要处理的列;prefix 列名的前缀,在多个列有相同的离散项时候使用;prefix_sep 前缀和离散值的分隔符;dummy_na 是否把NA值作为离散值进行处理,默认不处理;columns 要处理的列名,如果不指定列,模默认处理所有列;