python语言的数据处理_python数据处理-常用语句整理

最新推荐文章于 2022-09-16 10:30:13 发布

weixin_39653405

最新推荐文章于 2022-09-16 10:30:13 发布

阅读量431

点赞数

文章标签： python语言的数据处理

1、数据导入导入csv文件 read_csv(file,encoding) ；

导入文本文件 read_table(file,names=[列名1，列名2],sep="",encoding)；

导入excel文件 read_excel(filename,sheetname,names)；

2、数据导出to_csv(filepath,sep=",",index=true,header=true)；filepath为导出文件路径；sep分隔符，默认为逗号；index是否导出序号，默认为True；header是否导出列名，默认为True;

3、重复值处理把数据结构中，行相同的数据只保留一行，drop_duplicates()；

4、缺失值处理去除结构中值为空的数据；dropna()；

5、空格值处理清除字符型数据左右的空格；strip();

6、字段抽取根据已知列数据的开始和结束位置，抽取出新的列；slice(start,stop)，只能处理字符串;

7、字段拆分指按照固定的字符，拆分已有的字符串；

split(sep,n,expand= False) sep表示分割的字符串，n表示分割为多少列，expand为true，返回数据框；为false，返回序列；

8、记录抽取根据一定的条件，对数据进行抽取，类似于excel中的过滤；

dataframe[condition]，condition 为过滤的条件，返回DataFrame格式；

9、随机抽样指随机从数据中，按照一定的行数或者比例抽取数据；

DataFrame.sample(n,frac,replace=False) n表示抽样个数，frac表示百分比抽样，replace表示可放回抽样，默认False表示不可放回；

10、记录合并指将两个结构相同的数据框，合并成一个数据框；

concat([dataFrame1,dataFrame2])；

11、字段合并将同一个数据框的不同列，进行合并，形成新的列，返回的是序列；

12、字段匹配根据各表共有的关键字段，把各表所需的记录意义对应起来；

merge(x,y,left_on,right_on) x表示第一个数据框，y表示第二个数据框，left_on 第一个数据框用于匹配的列，right_on 第二个数据框用于匹配的列；返回数据框；

13、简单计算指通过对已有的字段进行加、减、乘、除等运算，得出新的字段过程。

14、数据标准化指将数据按比例进行缩放，使之落入到特定区间，消除量纲的影响。

15、数据分组根据数据分析对象的特征，按照一定的数值指标，把数据分析对象划分为不同的区间进行研究，揭示其内在的联系和规律性。

cut(series,bins,right= True,labels = NULL) series 需要分组的数据；bins 分组的划分数组，right 分组的时候，右边是否闭合；labels 分组的自定义标签，可以不定义；

16、时间处理时间处理，指将字符型的时间格式数据，转换为时间型数据的过程 datetime = pandas.to_datetime(dateString,format) %Y代表年份；%m代表月份；%d代表日期；%H代表小时；%M代表分钟；%S代表秒

时间格式化，指将时间型数据，按照指定格式，转化为字符型数据 dateTimeFormat = datetime.dt.strftime(format)

日期抽取，是指从日期格式里面，抽取出需要的部分属性 datetime.dt.XX;XX 可以是year，month,weekday,day,hour,minute,second

17、时间抽取指根据一定的条件，对时间格式的数据进行抽取；

根据索引进行抽取，DataFrame.ix[start:end]、DataFrame.ix[dates];

根据时间列进行抽取，DataFrame[condition]

18、虚拟变量(哑变量/离散特征编码)用来表示分类变量，非数量因素可能产生的影响。

若离散特征的取值之间有大小意义,如尺寸，pandas.Series.map(dict) ；

若离散特征的取值直接没有大小意义，如颜色，pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na= False,columns =None,drop_fist= False)， data 要处理的列；prefix 列名的前缀，在多个列有相同的离散项时候使用；prefix_sep 前缀和离散值的分隔符；dummy_na 是否把NA值作为离散值进行处理，默认不处理；columns 要处理的列名，如果不指定列，模默认处理所有列；

weixin_39653405

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python语言的数据处理_python数据处理-常用语句整理

1、数据导入导入csv文件 read_csv(file,encoding) ；导入文本文件 read_table(file,names=[列名1，列名2],sep="",encoding)；导入excel文件 read_excel(filename,sheetname,names)；2、数据导出to_csv(filepath,sep=",",index=true,header=true)；file...
复制链接

扫一扫