机器学习学习笔记-第二章

最新推荐文章于 2024-08-08 09:52:55 发布

LH-sw

最新推荐文章于 2024-08-08 09:52:55 发布

阅读量695

点赞数

分类专栏：深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_41827712/article/details/123954675

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这篇博客介绍了机器学习的基本流程，包括数据下载与加载、数据结构查看、测试集创建、数据可视化和数据预处理。重点讲解了如何处理缺失值、文本分类以及特征缩放，并提到了线性回归、决策树和随机森林模型的训练与评估。此外，还讨论了模型调优的策略如网格搜索和随机搜索，以及模型的保存和加载。

摘要由CSDN通过智能技术生成

机器学习学习笔记（一）

一、下载数据及加载数据

下载数据：可以写一个函数，或者手动下载数据
加载数据：可以使用ｐａｎｄａｓ加载数据，该函数返回一个包含所有数据的pandas DataFrame对象。

二、查看数据结构

可以使用ＤａｔａＦｒａｍｅ的ｈｅａｄ方法查看前几行
通过info（）方法可以快速获取数据集的简单描述，特别是总行数、每个属性的类型和非空值的数量
可以使用value_counts（）方法查看有多少种分类存在，每种类别下分别有多少个区域
可以使用value_counts（）方法查看有多少种分类存在，每种类别下分别有多少个区域
用ｈｉｓｔ（）绘制直方图，可以一次绘制一个属性，也可以在整个数据集上调用hist（）方法

三、创建测试集

测试集通常是数据集的百分之２０
选取测试集的方法：
１、使用最稳定的特征创建唯一标识符，用这个标识符决定该实例是否进入测试集。（例如可以计算每个实例的哈希值，如果这个哈希值小于或等于最大哈希值的２０％，那就将该实例放入测试集）
Scikit-Learn提供了一些函数，可以通过多种方式将数据集分成多
个子集。最简单的函数是train_test_split（）
２、分层抽样
使用ｐｄ．ｃｕｔ（）创建５个收入类别属性
根据收入类别进行分层抽样了。使用Scikit-Learn的StratifiedShuffleSplit类

四、数据可视化

１、由于存在精度和纬度，所以创建一个各区域分布图，用ｐｌｏｔ创建
２、寻找相关性

可以使用corr（）方法轻松计算出每对属性之间的标准相关系数（也称为皮尔逊r）
是使用pandas的scatter_matrix函数，它会绘制出每个数值属性相对于其他数值属性的相关性

五、机器学习算法的数据准备

１、数据清理：对于没有值的属性，可以用三种方式解决：

放弃这些相应的区域。
放弃整个属性。
将缺失的值设置为某个值（0、平均数或者中位数等）。通过ＤａｔａＦｒａｍｅ的ｄｒｏｐｎａ（）、ｄｒｏｐ、和ｆｉｌｌｎａ（）方法，可以完成以上操作
Ｓｃｉｋｉｔ－Ｌｅａｒｎ提供了ＳｉｍｐｌｅＩｍｐｕｔｅｒ类处理缺失值
使用ｆｉｔ（）方法将ｉｍｐｕｔｅｒ实例适配到训练数据

２、处理文本和分类属性

将文本转成数字，可以使用Scikit-Lear的OrdinalEncoder类可以使用Ｃａｔｅｇｏｒｉｅｓ＿实例变量获取类别列表
独热编码：只用一个属性是１，其他是０。ＳｃｉＫｉｔ—Ｌｅａｒｎ提供了一个ＯｎｅＨｏｔＥｎｃｏｄｅｒ编码器，可以将整数类别值转换为独热向量
但是转换出来的是Ｓｃｉｐｙ稀疏矩阵（稀疏矩阵仅存储非零元素的位置）
如果想要将Ｓｃｉｐｙ稀疏矩阵转成Ｎｕｍｐｙ数据，调用ｔｏａｒｒａｙ（）就行

３、自定义转换器

创建一个类，应用ｆｉｔ（），ｔｒａｎｓｆｏｒｍ（），ｆｉｔ＿ｔｒａｎｓｆｏｒｍ（）方法。
可以添加一些基类，就能自动获取一些方法，比如ＴｒａｎｓｆｏｒｍｅｒＭｉｘｉｎ、ＢａｓｅＥｓｔｉｍａｔｏｒ

４、特征缩放
两种方法：

最小－最大缩放：将值缩放到０－１之间。实现方法：减去最小值，并除以最大值和最小值的差。Ｓｃｉｋｉｔ－Ｌｅａｒｎ提供了一个类：ＭｉｎＭａｘＳｃａｌｅｒ，可以通过ｆｅａｔｕｒｅ＿ｒａｎｇｅ对范围（０，１）进行更改
标准化：减去平均值，除以方差，使得结果的分布具备单位方差。不同于上面的方法，标准化不会将值绑定到特定范围。Ｓｃｉｋｉｔ－Ｌｅａｒｎ提供了一个标准化的转换器ＳｔａｎｄａｄＳｃａｌｅｒ

５、转换流水线

数据转换需要以正确的步骤执行，Ｓｃｉｋｉｔ－Ｌｅａｒｎ提供了Ｐｉｐｅｌｉｎｅ类支持这样的转换
当调用流水线的ｆｉｔ（）方法时，会在所有转换器上按照顺序依次调用ｆｉｔ＿ｔｒａｎｓｆｏｒｍ（），将一个调用的输出作为参数传递给下一个调用方法，直到传递到最终的估算器。
在Ｓｃｉｋｉｔ－Ｌｅａｒｎ０．２０版中，引入了ＣｏｌｕｍｎＴｒａｎｓｆｏｒｍｅｒ，可以处理所有的列。

六、选择和训练模型

训练一个线性回归模型　LinearRegression
我们可以使用Scikit-Learn　mean_squared_error（）函数来测量整个训练集上回归模型的RMSE
试一试决策树模型DecisionTreeRegressor，他能从数据中找到复杂的非线性关系。
使用交叉验证进行评估决策树
- 使用ｔｒａｉｎ＿ｔｅｓｔ＿ｓｐｌｉｔ函数将训练集分为较小的训练集和验证集，根据这些较小的训练集和训练模型
- 使用Ｓｃｉｋｉｔ－Ｌｅａｒｎ的Ｋ－折交叉验证功能，这个功能更倾向于使用效用函数（越大越好）而不是成本函数（越小越好）
试一试随机森林模型RandomForestRegressor
通过Python的pickle模块或joblib库，你可以轻松保存Scikit-Learn模型，这样可以更有效地将大型NumPy数组（可以用pip安装）序列化