excel随机抽取指定数据_python数据处理-常用语句整理-CSDN博客

1、数据导入

2、数据导出

to_csv(filepath,sep=",",index=true,header=true)；filepath为导出文件路径；sep分隔符，默认为逗号；index是否导出序号，默认为True；header是否导出列名，默认为True;

3、重复值处理

4、缺失值处理

5、空格值处理

6、字段抽取

7、字段拆分

8、记录抽取

9、随机抽样

指随机从数据中，按照一定的行数或者比例抽取数据；
DataFrame.sample(n,frac,replace=False) n表示抽样个数，frac表示百分比抽样，replace表示可放回抽样，默认False表示不可放回；

10、记录合并

11、字段合并

12、字段匹配

根据各表共有的关键字段，把各表所需的记录意义对应起来；
merge(x,y,left_on,right_on) x表示第一个数据框，y表示第二个数据框，left_on 第一个数据框用于匹配的列，right_on 第二个数据框用于匹配的列；返回数据框；

13、简单计算

14、数据标准化

15、数据分组

根据数据分析对象的特征，按照一定的数值指标，把数据分析对象划分为不同的区间进行研究，揭示其内在的联系和规律性。
cut(series,bins,right= True,labels = NULL) series 需要分组的数据；bins 分组的划分数组，right 分组的时候，右边是否闭合；labels 分组的自定义标签，可以不定义；

16、时间处理

时间处理，指将字符型的时间格式数据，转换为时间型数据的过程 datetime = pandas.to_datetime(dateString,format) %Y代表年份；%m代表月份；%d代表日期；%H代表小时；%M代表分钟；%S代表秒
时间格式化，指将时间型数据，按照指定格式，转化为字符型数据 dateTimeFormat = datetime.dt.strftime(format)
日期抽取，是指从日期格式里面，抽取出需要的部分属性 datetime.dt.XX;XX 可以是year，month,weekday,day,hour,minute,second

17、时间抽取

18、虚拟变量（哑变量/离散特征编码）

用来表示分类变量，非数量因素可能产生的影响。
若离散特征的取值之间有大小意义,如尺寸，pandas.Series.map(dict) ；
若离散特征的取值直接没有大小意义，如颜色，pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na= False,columns =None,drop_fist= False)， data 要处理的列；prefix 列名的前缀，在多个列有相同的离散项时候使用；prefix_sep 前缀和离散值的分隔符；dummy_na 是否把NA值作为离散值进行处理，默认不处理；columns 要处理的列名，如果不指定列，模默认处理所有列；