数据清洗
千与千寻楚
极简学习数据科学,快速build战略思维
展开
-
Python - 方差分析(简单代码)
应用场景:例如一个分类指标教育等级(等级变量),如(大学 - 1,硕士 - 2,博士 - 3)与连续变量每月的月均支出金额是否相关。应用条件:观测样本独立每一组都符合正态分布在数据量很大的情况下,抽取3000的样本量,p值<1%就说明有关系。(简单随机抽样即可,分层随机抽样最好)当然,决策树也可以用来直接判断(不过在目前情况下大可不必)有木有觉得以上描述特别熟悉呀~,没有错,其实方差分析和我们双样本T检验是亲戚。应用场景和应用条件非常类似。import pandas as pdimp原创 2021-04-12 21:31:22 · 1653 阅读 · 3 评论 -
Python -双样本T检验
应用场景:例如一个分类指标(0,1)与连续变量是否有关系。比如我们开卡,是否会开卡(0,1)与每月的月均支持金额的关系应用条件:两个观测样本独立每一组都符合正态分布在数据量很大的情况下,抽取3000的样本量,p值<1%就说明有关系。(简单随机抽样即可,分层随机抽样最好)当然,决策树也可以用来直接判断(不过在目前情况下大可不必)代码示范:import pandas as pdimport os import numpy as npimport matplotlib.pyplot原创 2021-04-09 21:51:39 · 2115 阅读 · 0 评论 -
Python正态性检验(最简单的方法)
正态分布也被成为高斯分布。我最讨厌理论了,实在是网上理论太多。。。看不进去。直接2个步骤:做Hist图(直方图)用KStest检验P值import pandas as pdimport os import numpy as npimport matplotlib.pyplot as pltos.chdir('C://Users//username//Desktop')df=pd.read_csv('test.csv',encoding='gbk')df['casual'].hi原创 2021-04-08 19:24:54 · 2235 阅读 · 2 评论 -
Python数据清洗 - 如何替换null值(最简单教学)
用SQL/HQL从数据库把数据取出之后,经常会遇到null值。最常需要的是直接替换null值为某个值。接下来快速替换吧~import pandas as pdimport os import numpy as npos.chdir('C://Users//username//Desktop')df=pd.read_csv('test1.csv',encoding='gbk')df1=df['年龄'].replace(np.nan,'12')用的是Numpy模块里面的nan函数将12原创 2021-04-08 19:01:02 · 4409 阅读 · 1 评论 -
Python数据清洗 - 读取数据
直接快速的读取数据,我习惯用os模块。因为假设你在一个文件夹里有很多个文件需要读取,那么你只需要输入一次文件夹地址即可。import pandas as pdimport os os.chdir('C://Users//username//Desktop')df=pd.read_csv('train.csv')...原创 2021-04-08 18:46:47 · 185 阅读 · 0 评论 -
Python数据清洗 - 分组计算&Pivot Table
df5.groupby(‘key’).apply(lambda x:x.describe())#按照Key列分组后计算describedf5.groupby(‘key’).transform(np.mean)#按照Key列分组后计算均值pd.pivot_table(df,values=‘value’,index=[‘date’,‘key’],aggfun=np.mean)#对df进行index为date和key的平均值聚合计算。...原创 2020-05-12 08:32:18 · 631 阅读 · 0 评论 -
Python数据清洗- groupby excel中的subtotal或者数据透视表
时常会用excel中的建组或者数据透视表按照某列汇总import pandas as pdimport osos.chdir(path)df=pd.read_csv(path)df1=df.groupby('A').sum()#按照A列求和df2=df.groupby(['A','B']).sum()#按照A列和B列求和df3=df.groupby(['A'])['B'].s...原创 2020-05-07 08:03:52 · 475 阅读 · 0 评论 -
Python数据清洗 - Merge的好伙伴join
其实学会了merge, join是差不多的功能。只是还是希望在读别人的代码的时候读的懂即可。df1=pd.read_csv('mm.csv')df2=pd.read_csv('nn.csv')d1.join(df2,how='outer')outer和inner就是并集和交集的区别了。...原创 2020-05-03 22:22:25 · 126 阅读 · 0 评论 -
Python数据清洗 -excel中的vlookup
处理数据的时候发现很长时间不用Index match,多条件查询竟然忘记了,然后又懒得再去google一下。用Vlookup多条件定位查询竟然报错,所以最后选了一个懒人最合适的办法。Python中的pandas merge…以下代码的意思就是按照同时符合-项目和姓名的求并集,并且以后者也就是df2的文档为基准。分分钟完成~~import pandas as pdimport osos....原创 2020-05-02 17:36:00 · 457 阅读 · 0 评论