excel随机抽取指定数据_python数据处理-常用语句整理

42bc98dfb6f976f0199c697fd711f49c.png

1、数据导入

  • 导入csv文件 read_csv(file,encoding) ;
  • 导入文本文件 read_table(file,names=[列名1,列名2],sep="",encoding);
  • 导入excel文件 read_excel(filename,sheetname,names);

80a9bb54f89ed1f388d7063bc06a0b34.png

2、数据导出

  • to_csv(filepath,sep=",",index=true,header=true);filepath为导出文件路径;sep分隔符,默认为逗号;index是否导出序号,默认为True;header是否导出列名,默认为True;

480ffdddada69748614a5568c372367c.png

3、重复值处理

  • 把数据结构中,行相同的数据只保留一行,drop_duplicates();

16118c2a54c6f0334db870cee501ef9d.png

4、缺失值处理

  • 去除结构中值为空的数据;dropna();

3ccab4a7851c7151091a8643144d815e.png

5、空格值处理

  • 清除字符型数据左右的空格;strip();

9c4a8a76658531c17130b10d3a2992e8.png

6、字段抽取

  • 根据已知列数据的开始和结束位置,抽取出新的列;slice(start,stop),只能处理字符串;

a53648cef6490c3fd181d933dcf6d16f.png

7、字段拆分

  • 指按照固定的字符,拆分已有的字符串;
  • split(sep,n,expand= False) sep表示分割的字符串,n表示分割为多少列,expand为true,返回数据框;为false,返回序列;

a2c5e7c9e2452ab54335d954d9023810.png

8、记录抽取

  • 根据一定的条件,对数据进行抽取,类似于excel中的过滤 ;
  • dataframe[condition],condition 为过滤的条件,返回DataFrame格式;

4da8018869b9b4da95ab7353123e6049.png

9、随机抽样

  • 指随机从数据中,按照一定的行数或者比例抽取数据;
  • DataFrame.sample(n,frac,replace=False) n表示抽样个数,frac表示百分比抽样,replace表示可放回抽样,默认False表示不可放回;

825fb510a85beb880ce36655526f814f.png

10、记录合并

  • 指将两个结构相同的数据框,合并成一个数据框;
  • concat([dataFrame1,dataFrame2]);

8ce448b3933a51ef781ed0e47ba58515.png

11、字段合并

  • 将同一个数据框的不同列,进行合并,形成新的列,返回的是序列;

760e25d55350c86e9476f6e21a2057ec.png

12、字段匹配

  • 根据各表共有的关键字段,把各表所需的记录意义对应起来;
  • merge(x,y,left_on,right_on) x表示第一个数据框,y表示第二个数据框,left_on 第一个数据框用于匹配的列,right_on 第二个数据框用于匹配的列;返回数据框;

377300dab52227b9a010ba656a0b4cfb.png

13、简单计算

  • 指通过对已有的字段进行加、减、乘、除等运算,得出新的字段过程。

521173dc96498c4049b3fd6e2a887d89.png

14、数据标准化

  • 指将数据按比例进行缩放,使之落入到特定区间,消除量纲的影响。

f1e608ba56e3f011f249444630924b30.png

15、数据分组

  • 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,揭示其内在的联系和规律性。
  • cut(series,bins,right= True,labels = NULL) series 需要分组的数据;bins 分组的划分数组,right 分组的时候,右边是否闭合;labels 分组的自定义标签,可以不定义;

a716eabeb0e17df2f0114e1289ee9e16.png

16、时间处理

  • 时间处理,指将字符型的时间格式数据,转换为时间型数据的过程 datetime = pandas.to_datetime(dateString,format) %Y代表年份;%m代表月份;%d代表日期;%H代表小时;%M代表分钟;%S代表秒
  • 时间格式化,指将时间型数据,按照指定格式,转化为字符型数据 dateTimeFormat = datetime.dt.strftime(format)
  • 日期抽取,是指从日期格式里面,抽取出需要的部分属性 datetime.dt.XX;XX 可以是year,month,weekday,day,hour,minute,second

329a8cbbbc1514b70a499c660f8f56d5.png

17、时间抽取

  • 指根据一定的条件,对时间格式的数据进行抽取;
  • 根据索引进行抽取,DataFrame.ix[start:end]、DataFrame.ix[dates];
  • 根据时间列进行抽取,DataFrame[condition]

2ad216aed1aa2e91dd90aaf13bd5a9cf.png

18、虚拟变量(哑变量/离散特征编码)

  • 用来表示分类变量,非数量因素可能产生的影响。
  • 若离散特征的取值之间有大小意义,如尺寸 ,pandas.Series.map(dict) ;
  • 若离散特征的取值直接没有大小意义,如颜色 ,pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na= False,columns =None,drop_fist= False), data 要处理的列;prefix 列名的前缀,在多个列有相同的离散项时候使用;prefix_sep 前缀和离散值的分隔符;dummy_na 是否把NA值作为离散值进行处理,默认不处理;columns 要处理的列名,如果不指定列,模默认处理所有列;

d6ba60ef273ab3dbd086ef5297a5efa3.png

dca9617423dc59de6bacc0a57028417b.png
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值