数据预处理中的标签提取和数据分类

朽月初二

于 2023-03-01 15:27:11 发布

阅读量1.2k

点赞数 1

分类专栏： python实战文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46012097/article/details/129280474

版权

python实战专栏收录该内容

9 篇文章

订阅专栏

文章介绍了使用pandas的read_csv函数读取CSV文件，返回的是DataFrame数据结构。DataFrame是表格型数据，类似由Series和字典组成。接着，文章讨论了如何提取标签，利用numpy的shape属性获取行列数，并用set创建无序不重复标签集。最后，讲述了如何按标签分割数据并保存为新的CSV文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

处理的是.csv文件，首先要做的是读取.csv文件中的表格数据，使用的是pandas中的read_csv函数。

那么问题来了，这样读取文件返回值是什么呢？

我们来输出一下：

发现是DataFrame类型的数据，那么这个数据类型到底是什么呢？

经过查找资料，菜鸟教程上是这么解释的：DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

Pandas 数据结构 – DataFrame | 菜鸟教程 (runoob.com)

那么问题来了，我也不是很记得Series和字典这两种数据结构，继续学习。

数据结构 - Series：

Pandas 数据结构 – Series | 菜鸟教程 (runoob.com)

数据结构 - 字典：花括号

Python 字典(Dictionary) | 菜鸟教程 (runoob.com)

接下来要将表格根据标签将数据分开，因为有的标签数据太少了，需要扩充标签数据。

由于数据集的标签数据在最后一列，所以用numpy中的shape[1]来读取列数，shape[0]读取的是行数，对于二维数据来说。shape[1]-1就是列索引号，因为索引号从0开始。

需要将标签提取成一个无序不重复元素集，先使用iloc函数将标签列全部提取出，values去掉索引，ravel将多维数组转化为一维数组，然后使用set函数创建一个无序不重复元素集。

把数据按标签分开就是：

标签数据组的索引为索引，在新的数组中把该标签的数据全部添加进去，然后把新的数据按照标签号以DataFrame数据类型重新保存成.csv文件。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。