Python数据清洗 &amp；预处理入门完整指南！_怎么进行轨道交通数据预处理和清洗python

最新推荐文章于 2025-04-29 15:28:57 发布

2401_84140040

最新推荐文章于 2025-04-29 15:28:57 发布

阅读量970

点赞数 5

分类专栏： 2024年程序员学习文章标签： python 人工智能算法

本文链接：https://blog.csdn.net/2401_84140040/article/details/137891933

版权

2024年程序员学习专栏收录该内容

79 篇文章

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

y = dataset.iloc[:, 3].values

记住，在查看数据集的时候，索引（index）是从 0 开始的。所以，如果希望统计列数，从 0 开始计数而不是 1。「[:, :3]」会返回 animal、age 和 worth 三列。其中 0 表示 animal，1 表示 age，2 表示 worth。对于这种计数方法，即使你没见过，也会在很短的时间内适应。

如果有缺失数据会怎么样？

事实上，我们总会遇到数据缺失。对此，我们可以将存在缺失的行直接删除，但这不是一个好办法，还很容易引发问题。因此需要一个更好的解决方案。最常用的方法是，用其所在列的均值来填充缺失。为此，你可以利用 scikit-learn 预处理模型中的 inputer 类来很轻松地实现。（如果你还不知道，那么我强烈建议你搞明白它：scikit-learn 包含非常棒的机器学习模型）。在机器学习中，你可能并不适应诸如「方法」、「类」和「对象」这些术语。这不是什么大问题！

类就是我们希望为某目的所建立的模型。如果我们希望搭建一个棚子，那么搭建规划就是一个类。
对象是类的一个实例。在这个例子中，根据规划所搭建出来的一个棚子就是一个对象。同一个类可以有很多对象，就像可以根据规划搭建出很多个棚子一样。
方法是我们可以在对象上使用的工具，或在对象上实现的函数：传递给它某些输入，它返回一个输出。这就像，当我们的棚子变得有点不通气的时候，可以使用「打开窗户」这个方法。

为了使用 imputer，输入类似如下语句。

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = np.nan, strategy = ‘mean’, axis = 0)

均值填充是默认的填充策略，所以其实不需要指定，加在此处是为了方便了解可以包含什么信息。missing_values 的默认值是 nan。如果你的数据集中存在「NaN」形式的缺失值，那么你应该关注 np.nan，可以在此查看官方文档：
https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html

为了拟合这个 imputer，输入：

imputer = imputer.fit(X[:, 1:3])

我们只希望在数据存在缺失的列上拟合 imputer。这里的第一个冒号表示包含所有行，而「1:3」则表示我们取索引为 1 和 2 的列。不要担心，你很快就会习惯 PTYHON 的计数方法的。

现在，我们希望调用实际上可以替换填充缺失数据的方法。通过输入以下语句完成：

X[:, 1:3] = imputer.transform(X[:, 1:3])

多尝试一些不同的填充策略。也许在某些项目中，你会发现，使用缺失值所在列的中位数或众数来填充缺失值会更加合理。填充策略之类的决策看似细微，但其实意义重大。因为流行通用的方法并不一定就是正确的选择，对于模型而言，均值也不一定是最优的缺失填充选择。

毕竟，几乎所有正阅读本文的人，都有高于平均水平的手臂数。

如果包含属性数据，会怎么样呢？

这是一个好问题。没有办法明确地计算诸如猫、狗、麋鹿的均值。那么可以怎么做呢？可以将属性数据编码为数值！你可能希望使用 sklearn.preprocessing 所提供的 LabelEncoder 类。从你希望进行编码的某列数据入手，调用 label encoder 并拟合在你的数据上。

from sklearn.preprocessing import LabelEncoder
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

（还记得括号里的数字所表示的含义吗？「：」表示希望提取所有行的数据，0 表示希望提取第一列）

这就是将第一列中的属性变量替换为数值所需的全部工作了。例如，麋鹿将用 0 表示，狗将用 2 表示，猫将用 3 表示。

你发现什么潜在问题了吗？

标注体系暗含以下信息：所使用的数值层级关系可能会影响模型结果：3 比 0 的数值大，但猫并不一定比麋鹿大。

我们需要创建哑变量。

我们可以为猫创建一列数据，为麋鹿创建一列数据，……以此类推。然后，将每一列分别以 0/1 填充（认为 1=Yes，0 = No）。这表明，如果原始列的值为猫，那么就会在麋鹿一列得到 0，狗一列得到 0，猫一列得到 1。

看上去非常复杂。输入 OneHotEncoder 吧！

导入编码器，并制定对应列的索引。

from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder(categorical_features = [0])

接着是一点拟合和转换。

X = onehotencoder.fit_transform(X).toarray()

现在，你的那一列数据已经被替换为了这种形式：数据组中的每一个属性数据对应一列，并以 1 和 0 取代属性变量。非常贴心，对吧？如果我们的 Y 列也是如「Y」和「N」的属性变量，那么我们也可以在其上使用这个编码器。

labelencoder_y = LabelEncoder()
y = labelencoder_y.fit_transform(y)

这会直接拟合并将 y 表示为编码变量：1 表示「Y」，0 表示「N」。

训练集与测试集的划分

现在，你可以开始将数据集划分为训练集和测试集了。这已经在之前的图像分类教程一文中论述过了。不过记得，一定要将你的数据分为训练集和测试集，永远不要用测试集来训练！需要避免过拟合（可以认为，过拟合就像在一次测验前，记忆了许多细节，但没有理解其中的信息。如果只是记忆细节，那么当你自己在家复习知识卡片时，效果会很好，但在所有会考察新信息的真实测验中，都会不及格。）

现在，我们有了需要学习的模型。模型需要在数据上训练，并在另外的数据上完成测试。对训练集的记忆并不等于学习。模型在训练集上学习得越好，就应该在测试集给出更好的预测结果。过拟合永远都不是你想要的结果，学习才是！

首先，导入：

from sklearn.model_selection import train_test_split

现在，可以创建 X_train、X_test、y_train 和 y_test 集合了。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

一种常见的方法是将数据集按 80/20 进行划分，其中 80% 的数据用作训练，20% 的数据用作测试。这也是为何指定 test_size 为 0.2 的原因。你也可以根据自己的需求来任意划分。你并不需要设置 random_state，这里设置的原因是为了可以完全复现结果。

特征缩放

什么是特征缩放？为什么需要特征缩放？

看看我们的数据。我们有一列动物年龄，范围是 4~17，还有一列动物价值，范围是83,000。价值一栏的数值不仅远大于年龄一栏，而且它还包含更加广阔的数据范围。这表明，欧式距离将完全由价值这一特征所主导，而忽视年龄数据的主导效果。如果欧式距离在特定机器学习模型中并没有具体作用会怎么样？缩放特征将仍能够加速模型，因此，你可以在数据预处理中，加入特征缩放这一步。

特征缩放的方法有很多。但它们都意味着我们将所有的特征放在同一量纲上，进而没有一个会被另一个所主导。

导入相关库开始：

from sklearn.preprocessing import StandardScaler

创建一个需要缩放对象并调用 Standard Scaler 。



做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。



别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

* * *



**（1）Python所有方向的学习路线（新版）**

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。



最近我才对这些路线做了一下新的更新，知识体系更全面了。



![在这里插入图片描述](https://img-blog.csdnimg.cn/8fc093dcfa1f476694c574db1242c05b.png)



**（2）Python学习视频**



包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。



![在这里插入图片描述](https://img-blog.csdnimg.cn/d66e3ad5592f4cdcb197de0dc0438ec5.png#pic_center)



**（3）100多个练手项目**

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。



![在这里插入图片描述](https://img-blog.csdnimg.cn/f5aeb4050ab547cf90b1a028d1aacb1d.png#pic_center)



**（4）200多本电子书**  

  

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。



基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。



**（5）Python知识点汇总**

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。



![在这里插入图片描述](https://img-blog.csdnimg.cn/c741a91b05a542ba9dc8abf2f2f4b1af.png)



**（6）其他资料**



还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。



![在这里插入图片描述](https://img-blog.csdnimg.cn/9fa77af248b84885a6ec779b2ead064d.png)

**这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。**




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）**
![img](https://img-blog.csdnimg.cn/img_convert/8aaefaa4ba3a30eebdd0ce143f21238a.png)

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**
者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。**




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）**
[外链图片转存中...(img-MXhEC4OL-1713363693577)]

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**