1、数据导入导入csv文件 read_csv(file,encoding) ;
导入文本文件 read_table(file,names=[列名1,列名2],sep="",encoding);
导入excel文件 read_excel(filename,sheetname,names);
2、数据导出to_csv(filepath,sep=",",index=true,header=true);filepath为导出文件路径;sep分隔符,默认为逗号;index是否导出序号,默认为True;header是否导出列名,默认为True;
3、重复值处理把数据结构中,行相同的数据只保留一行,drop_duplicates();
4、缺失值处理去除结构中值为空的数据;dropna();
5、空格值处理清除字符型数据左右的空格;strip();
6、字段抽取根据已知列数据的开始和结束位置,抽取出新的列;slice(start,stop),只能处理字符串;
7、字段拆分指按照固定的字符,拆分已有的字符串;
split(sep,n,expand= False) sep表示分割的字符串,n表示分割为多少列,expand为true,返回数据框;为false,返回序列;
8、记录抽取根据一定的条件,对数据进行抽取,类似于excel中的过滤 ;
dataframe[condition],condition 为过滤的条件,返回DataFrame格式;
9、随机抽样指随机从数据中,按照一定的行数或者比例抽取数据;
DataFrame.sample(n,frac,replace=False) n表示抽样个数,frac表示百分比抽样,replace表示可放回抽样,默认False表示不可放回;
10、记录合并指将两个结构相同的数据框,合并成一个数据框;
concat([dataFrame1,dataFrame2]);
11、字段合并将同一个数据框的不同列,进行合并,形成新的列,返回的是序列;
12、字段匹配根据各表共有的关键字段,把各表所需的记录意义对应起来;
merge(x,y,left_on,right_on) x表示第一个数据框,y表示第二个数据框,left_on 第一个数据框用于匹配的列,right_on 第二个数据框用于匹配的列;返回数据框;
13、简单计算指通过对已有的字段进行加、减、乘、除等运算,得出新的字段过程。
14、数据标准化指将数据按比例进行缩放,使之落入到特定区间,消除量纲的影响。
15、数据分组根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,揭示其内在的联系和规律性。
cut(series,bins,right= True,labels = NULL) series 需要分组的数据;bins 分组的划分数组,right 分组的时候,右边是否闭合;labels 分组的自定义标签,可以不定义;
16、时间处理时间处理,指将字符型的时间格式数据,转换为时间型数据的过程 datetime = pandas.to_datetime(dateString,format) %Y代表年份;%m代表月份;%d代表日期;%H代表小时;%M代表分钟;%S代表秒
时间格式化,指将时间型数据,按照指定格式,转化为字符型数据 dateTimeFormat = datetime.dt.strftime(format)
日期抽取,是指从日期格式里面,抽取出需要的部分属性 datetime.dt.XX;XX 可以是year,month,weekday,day,hour,minute,second
17、时间抽取指根据一定的条件,对时间格式的数据进行抽取;
根据索引进行抽取,DataFrame.ix[start:end]、DataFrame.ix[dates];
根据时间列进行抽取,DataFrame[condition]
18、虚拟变量(哑变量/离散特征编码)用来表示分类变量,非数量因素可能产生的影响。
若离散特征的取值之间有大小意义,如尺寸 ,pandas.Series.map(dict) ;
若离散特征的取值直接没有大小意义,如颜色 ,pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na= False,columns =None,drop_fist= False), data 要处理的列;prefix 列名的前缀,在多个列有相同的离散项时候使用;prefix_sep 前缀和离散值的分隔符;dummy_na 是否把NA值作为离散值进行处理,默认不处理;columns 要处理的列名,如果不指定列,模默认处理所有列;