DataFrame字符串之分割split()、清洗drop()、合并concat()、重新建立索引reset_index() - （Python）

最新推荐文章于 2023-06-07 09:04:36 发布

黄饱饱_bao

最新推荐文章于 2023-06-07 09:04:36 发布

阅读量6.9k

点赞数 3

分类专栏：数据变换与计算文章标签：数据预处理 split concat dropna reset_index

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40683253/article/details/86679221

版权

在数据建模前，通常需要对原始数据进行预处理。本文以一个实例展示了如何将数据从原格式（标签和置信度在同一单元格内）转换为更利于分析的格式。使用了Python的pandas库，涉及split()函数进行字符串分割，concat()函数合并数据，dropna()删除缺失值，以及reset_index()重新建立索引。通过这些操作，将数据整理成适合进一步分析的形式。

摘要由CSDN通过智能技术生成

数据建模之前，我们从数据部门拿到数据，但是这些数据的格式往往并不是我们可以直接使用的，比如下面表中的数据（左：原数据格式）。

原数据格式id自成一列，这个很好，但是标签和标签的置信度（这个id属于这个标签的可能性）都在一个单元格里，仅用空格分隔开来，这对数据处理的过程中很不方便。

我们需要将数据转化成右图格式（右：所需数据格式），这有利于我们用id和其他表格中的数据匹配。

原数据格式：

id

标签

所需数据格式：

id

最低0.47元/天解锁文章

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。