pandas数据预处理时的一些坑

最新推荐文章于 2022-09-21 15:43:29 发布

hasy_qiu

最新推荐文章于 2022-09-21 15:43:29 发布

阅读量873

点赞数

分类专栏： python数据清洗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hasy_qiu/article/details/79234086

版权

python数据清洗专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1）在使用pd.concat([df1,df2],axis=1)对数据进行纵向合并时，要注意默认是对应行索引进行合并。如果之前对数据进行过类似于去除样本的操作，要注意对两个数据集的行索引进行重复定义，否则会合并错位。

df1.index = range(len(df1))
df2.index = range(len(df2))
df = pd.concat([df1,df2],axis=1)

2) 做数据的时候使用了shuffle这个函数，它的作用是将数据随机打乱。如果有些数据集的Y值或特征值等随着行索引表现出明显的规律性变化，则要小心。因为这个会影响交叉严重的结果。所以要注意对数据进行随机化打乱，还要注意记住random_state的值,以使结果可重复

from sklearn.utils import shuffle #utils在英语中是跑龙套/小工具的意思
df1 = shuffle(df1,random_state=33)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pandas数据预处理时的一些坑

1）在使用pd.concat([df1,df2],axis=1)对数据进行纵向合并时，要注意默认是对应行索引进行合并。如果之前对数据进行过类似于去除样本的操作，要注意对两个数据集的行索引进行重复定义，否则会合并错位。df1.index = range(len(df1))df2.index = range(len(df2))df = pd.concat([df1,df2],axis=1
复制链接

扫一扫

专栏目录

hasy_qiu CSDN认证博客专家 CSDN认证企业博客

码龄12年

10: 原创

133万+: 周排名

144万+: 总排名

4万+: 访问

: 等级

342: 积分

4: 粉丝

3: 获赞

1: 评论

18: 收藏

私信

关注

热门文章

分类专栏

最新评论

天池智能工业大赛大佬们的思路（需要再看）
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客真的很有启发性。我觉得可以继续写关于天池智能工业大赛的技术实践经验，分享自己的思路和做法，特别是在数据处理和模型优化方面的经验，这样的技术文章对其他用户也会非常有帮助。相信下一篇博客会有更多读者关注和支持！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。