python语言的数据处理_python数据处理-常用语句整理

1、数据导入导入csv文件 read_csv(file,encoding) ;

导入文本文件 read_table(file,names=[列名1,列名2],sep="",encoding);

导入excel文件 read_excel(filename,sheetname,names);

2、数据导出to_csv(filepath,sep=",",index=true,header=true);filepath为导出文件路径;sep分隔符,默认为逗号;index是否导出序号,默认为True;header是否导出列名,默认为True;

3、重复值处理把数据结构中,行相同的数据只保留一行,drop_duplicates();

4、缺失值处理去除结构中值为空的数据;dropna();

5、空格值处理清除字符型数据左右的空格;strip();

6、字段抽取根据已知列数据的开始和结束位置,抽取出新的列;slice(start,stop),只能处理字符串;

7、字段拆分指按照固定的字符,拆分已有的字符串;

split(sep,n,expand= False) sep表示分割的字符串,n表示分割为多少列,expand为true,返回数据框;为false,返回序列;

8、记录抽取根据一定的条件,对数据进行抽取,类似于excel中的过滤 ;

dataframe[condition],condition 为过滤的条件,返回DataFrame格式;

9、随机抽样指随机从数据中,按照一定的行数或者比例抽取数据;

DataFrame.sample(n,frac,replace=False) n表示抽样个数,frac表示百分比抽样,replace表示可放回抽样,默认False表示不可放回;

10、记录合并指将两个结构相同的数据框,合并成一个数据框;

concat([dataFrame1,dataFrame2]);

11、字段合并将同一个数据框的不同列,进行合并,形成新的列,返回的是序列;

12、字段匹配根据各表共有的关键字段,把各表所需的记录意义对应起来;

merge(x,y,left_on,right_on) x表示第一个数据框,y表示第二个数据框,left_on 第一个数据框用于匹配的列,right_on 第二个数据框用于匹配的列;返回数据框;

13、简单计算指通过对已有的字段进行加、减、乘、除等运算,得出新的字段过程。

14、数据标准化指将数据按比例进行缩放,使之落入到特定区间,消除量纲的影响。

15、数据分组根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,揭示其内在的联系和规律性。

cut(series,bins,right= True,labels = NULL) series 需要分组的数据;bins 分组的划分数组,right 分组的时候,右边是否闭合;labels 分组的自定义标签,可以不定义;

16、时间处理时间处理,指将字符型的时间格式数据,转换为时间型数据的过程 datetime = pandas.to_datetime(dateString,format) %Y代表年份;%m代表月份;%d代表日期;%H代表小时;%M代表分钟;%S代表秒

时间格式化,指将时间型数据,按照指定格式,转化为字符型数据 dateTimeFormat = datetime.dt.strftime(format)

日期抽取,是指从日期格式里面,抽取出需要的部分属性 datetime.dt.XX;XX 可以是year,month,weekday,day,hour,minute,second

17、时间抽取指根据一定的条件,对时间格式的数据进行抽取;

根据索引进行抽取,DataFrame.ix[start:end]、DataFrame.ix[dates];

根据时间列进行抽取,DataFrame[condition]

18、虚拟变量(哑变量/离散特征编码)用来表示分类变量,非数量因素可能产生的影响。

若离散特征的取值之间有大小意义,如尺寸 ,pandas.Series.map(dict) ;

若离散特征的取值直接没有大小意义,如颜色 ,pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na= False,columns =None,drop_fist= False), data 要处理的列;prefix 列名的前缀,在多个列有相同的离散项时候使用;prefix_sep 前缀和离散值的分隔符;dummy_na 是否把NA值作为离散值进行处理,默认不处理;columns 要处理的列名,如果不指定列,模默认处理所有列;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值