数据清理
文章平均质量分 60
hhq2lcl
美好的生活要靠于奋斗!
展开
-
pandas 分列(一)之split()
一、函数详解split()左分列,rsplit()右分列df['A'].str.split(pat = None,n = -1,expand = False )pat:str,要拆分的字符串或正则表达式。如果未指定,则拆分空格。n:int,默认-1;限制输出中的分割数。None,0和-1被解释为返回所有拆分。【就是当用于分列的依据符号在有多个的话需要指定分列的次数(不指定的话就会根据...原创 2018-12-06 17:55:51 · 25667 阅读 · 2 评论 -
Pandas数据透视表之pivot_table
数据源:https://www.kaggle.com/mjbahmani/machine-learning-workflow-for-house-prices/data1、pivot_table定义df.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=Fa...原创 2018-12-02 12:07:20 · 973 阅读 · 0 评论 -
Pandas时间序列重采样(resample)方法中closed、label的作用
Pandas时间序列重采样(resample)方法中closed、label的作用转载:https://www.jianshu.com/p/061771f0afa9目录Pandas重采样方法resample降采样升采样Pandas提供了便捷的方式对时间序列进行重采样,根据时间粒度的变大或者变小分为降采样和升采样:降采样:时间粒度变大。例如,原来是按天统计的数据,现在变成按周统...转载 2018-12-02 20:35:40 · 941 阅读 · 0 评论 -
pandas 分列(二)之不规则字符串及str.extract()
pandas 分列(二)之不规则字符串及str.extract()转载地址:https://www.jianshu.com/p/2e9b0a56405a 分列的一种方式:当所有行在需要的分列的地方都是相同的字母、符号、空格等等的时候,我们可以使用str.split()直接将所有行分成两列。然而在实际工作中,有可能有并不是所有的行都有用于分列的键。今...转载 2019-10-30 17:53:13 · 574 阅读 · 0 评论 -
解决python 读取sas7bdat文件乱码问题
解决python 读取sas7bdat文件乱码问题之前,使用pd.read_sas()读取出来的文件中文存在乱码,非常恶心;对于奉行【极简主义】的我而言实在想不出其他什么办法解决,就用下面的方法重新安装了个包。虽然显得有些臃肿,不过没办法。如果有哪位读者知道用pd.read_sas()读取数据而不乱码的方法,烦请告诉一下,谢谢!方法一:sas7bdat1)安装sas7bdat包...原创 2018-12-27 18:09:12 · 5194 阅读 · 3 评论