数据分析项目合集（Day1）——数据预处理

最新推荐文章于 2023-03-25 00:17:15 发布

Wuli小团

最新推荐文章于 2023-03-25 00:17:15 发布

阅读量155

点赞数

分类专栏：数据分析项目文章标签：数据分析数据挖掘 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38551226/article/details/128526371

版权

数据分析项目专栏收录该内容

1 篇文章 0 订阅

订阅专栏

df = pd.read_csv('文件地址')

pd.read_csv（’ 文件地址 ‘,header=None, sep='\s+',names=[' ',' ',' ' ])

#header把第一行单独列出来，sep按照空格隔开

df.shape #基本形状

df.index #索引

df.columns #索引列

df.dtype #某列数据类型

df.info() #查看总体情况

df[' '].count() #某列数量

df[' '].value() # 某列的值

df[' '].value_count() #某列值的数量

df[' '].unique() #唯一值

df[' '].nunique() #唯一值的数量

df.isnull().sum() #缺失值数量

df.notnull().sum() #非缺失值数量

df[' '].head() ，type(df[' ']) #某列取值

df[[' ',' ']].head() ，type(df[[' ',' ']])#多列取值

###相关性

df[' '].var() #方差

df[' '].std() #标准差

###汇总统计

df.sum() #每一列相加

df[[’ ‘].cumsun().head() #逐行累加

df.max() df.min() #最大值最小值

df.idxmax() df.idxmin() #最大值最小值索引

df.mean() df.median() #平均值中位数

df.describe().T #汇总统计转置

df.describe().iteritems() #取列的名称和数据

###数据抽样

data = df.sample(n= 5,replace=False) #replace允许或者不允许对同一进行采样

pandas中的应用函数apply

df[' '].apply()

合并数据

df_1=pd.concat(objs = [df1,df2,df3],axis = 0) #合并数据,以行维度进行合并

df_1.sample(n=7,replace False) #随机不放回抽样7个

df_2= pd.merge(left=df1,right=df2,on=' ',how=' ')

索引问题

df.set_index([keys=' ']) #设置索引

d.reset_inedx(inplace = True) #取消索引

d.iloc[ : , : ].head #前五行数据

排序问题

df.sample(n=5,replace = False) #通过随机不放回抽样5个数据

data.sort_index

df.sort_values(by=[''] ,ascending=[ ]) #指定列的值排序

重复值处理

df.duplicated(subset=[' '] ,keep=' ' ,head()) #查找重复值

df.drop_duplicated(subset=[' '] ,keep=' ' ,head().iloc()) #删除重复值

df.drop_index.duplicated() #查找重复索引

数据分组

df.groupby(by=['地区'], as_index=True).agg(' 年份 ' : [' ',' ',' ']).head() #制定一列是聚合列

df.groupby(by=['地区'], as_index=True).年份.agg([' ',' ',' ']).head()

处理缺失值

df.isnull().sum #查找所有数据的缺失情况

df.dropna().isnull().sum() #删除缺失值数据

df.fillna(method=' ffill ' ).head() #使用前一个值填充

df.fillna(method=' bfill ' ).head() #使用后一个值填充

其他

pd.to_datatime(df[' '], format=' %Y%m%d ') #将int类型转化成时间类型datetime

agg([' ' ,' ' ]) #对分组后的结果进行指定聚合

df.pivot_table(index = ' ',aggfunc = { ' ' : ' 操作 '} )

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析项目合集（Day1）——数据预处理

数据分析项目合集（Day1）——数据预处理
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。