数据分析---Day04

上天的猴

于 2020-09-25 14:49:31 发布

阅读量110

点赞数

文章标签：数据分析 Day4 Day04 数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44778404/article/details/108795685

版权

01.data process

	1.删除重复行
		
		删除重复行的处理步骤：
					1.判断重复项
					2.重复项处理：
								 1/ 取非重复项  
								 cond = df.duplicated()   # 参数：keep=last/subset=['A', 'B', 'C']
								 2/ 删除重复项 
								df.loc[~cond]/df.drop_duplicates()

2. 映射
			2.1 替换元素
				df.replace({20: 100, 'a': 'c'})
			2.2 新建一列
				df['python'] = df['math'].map({130：100， 110： 90}） # 参数还可以lambda x：x*2  和 fn
			2.3 替换索引
				df.rename(index={'张三': 'zhangsan'}, columns={'数学': 'math'})

3.异常值的检测和过滤
	1. 检测
		cond = df.abs()>3*df.std()
		cond = cond.any(axis=1)
		cond
	2.过滤
		df.loc[~cond]
		
4. 抽样
	 	df.take([1, 0, 2, 3], axis=0)   # 参数还可以np.random.permutation([0, 1, 2, 3], axis=0)  和 np.random.randint(0, 4, size=4)

5.数据聚合
df.groupby(by=‘color’)[[‘price’]].sum().loc[[‘白’]]
在这里插入图片描述
transform和apply：以下三个指令等效
weight_sum = df.groupby(by=‘item’)[[‘weight’]].sum()
weight_sum2 = df.groupby(by=‘item’)[[‘weight’]].transform(sum)
weight_sum3 = df.groupby(by=‘item’)[[‘weight’]].apply(sum)

高级数据聚合
weight_sum.add_prefix(‘abc_’) # 加前缀
weight_sum.add_suffix(’_sum’) # 加后缀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析---Day04

01.data process 1.删除重复行删除重复行的处理步骤： 1.判断重复项 2.重复项处理： 1/ 取非重复项 cond = df.duplicated() # 参数：keep=last/subset=['A', 'B', 'C'] 2/ 删除重复项 df.loc[~cond]/df.drop_duplicates()2. 映射 2.1 替换元素 df.replace
复制链接

扫一扫

上天的猴 CSDN认证博客专家 CSDN认证企业博客

码龄5年

151: 原创

26万+: 周排名

109万+: 总排名

8万+: 访问

: 等级

1769: 积分

7: 粉丝

15: 获赞

5: 评论

54: 收藏

私信

关注

热门文章

分类专栏

最新评论

github登录账号密码
也许今天: 受教了谢谢
postman打不开
zzuoyou: 有用！感谢博主！
java基础
烨尧: 我的java个人心得，入门很重要，但是大多数人都搞错了方向，把入门变成了入土。。。：第一.切记不要一上来就找一大本厚书看。这样你绝对会放弃。《Java核心技术》《Java编程思想》等都不适合入门阅读，很容易半途而废。第二.先找一个入门级别的java教程看。网上有很多极简入门教程。例如runoob网站、w3cschool网站(它还有手机app)（上网搜一下关键词就有了）。我记得我一开始入门找的教程，知识面全而精炼简洁，含有基础、spring、Hibernate Servlet 等,地址如下仅供参考。https://how2j.cn/p/7245 第三.当你学完刚才那些网站之后，你应该此时对java有了一个整体的认识，那就去找一个小项目，GitHub很棒，https://github.com/上手练习，边做项目边查资料。进步会飞快。第四.这个阶段再回头精读一些java经典书籍。获得内功上的提升。总之，一定要循序渐进，一点点学才是最正确的选择。个人愚见，仅供参考
[java] 字符串中搜素某个字符(串)
ctotalk: good.
java的Character类
ctotalk: 加油

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。