Python 全栈 400 之机器学习练习

最新推荐文章于 2024-05-04 08:18:18 发布

zg1g

最新推荐文章于 2024-05-04 08:18:18 发布

阅读量521

点赞数

本文链接：https://blog.csdn.net/daigualu/article/details/109335649

版权

这篇博客深入探讨了机器学习的基础概念，包括数据集、实例、属性、样本空间、特征向量、标记、维数等。讲解了从数据学习到模型训练的过程，涉及回归、分类、聚类等方法。同时，文章强调了泛化能力和模型评价指标，如准确率、精确率和召回率。此外，还介绍了导数、偏导数在机器学习中的作用，以及正则化项在防止过拟合中的意义，对比了L1和L2正则化的稀疏性差异。

摘要由CSDN通过智能技术生成

404 数据集（data set）

记录的集合，假如我们用 3 个特征，分别为性别、头衔、有无同行人来预测泰坦尼克号上船员的生死，并且拥有基于这 3 个特征的 892 条记录，其中一条记录的取值为：

性别=female，头衔=Mrs，有无同行人=True

如果记录到 .csv 文件中，这个文件的结构可以记为： train[892][3] ，这样一个二维数组，行数为 892，列数为 3.

405 示例（instance）

每条记录是关于一个事件或对象的描述，也称为样本，比如以上其中一条记录：

性别=female，头衔=Mrs，有无同行人=True

可看做是一个实例

406 属性（attribute）

反映事件或对象在某方面的表现或性质的事项，例如色泽，根蒂，响声等，又称为特征 feature. 如下红框标出的便是 3 个特征：

属性上的取值如下红框所示，称为特征的取值。

407 样本空间（sample space）

样本空间又称为属性空间，attribute space，或输入空间。

它可以理解为训练数据中实际出现的所有属性值构成的集合空间，如果仅考察数据集中的 Genre 列，Genre 列的样本空间为 27，因为 Genre 列一共有 27 种不同取值。

和它有相似的一个概念叫做假设空间（hypothetical space），它是理论上的所有可能属性值构成的集合空间。

如果我们在购买某个股票时假定只考虑两个主要特征：股票经纪公司等级和股票最近3个月的涨幅情况，进而判断是否购买某只股票。

假定股票经纪公司等级取值为 4 种：A等，B等，C等，还要考虑到一种特殊取值 *，这个特征对于是否买这只股票是无关紧要的；

股票最近 3 个月的涨幅情况取值为 3 种：涨，降， *（同上面解释）

那么根据这 2 个特征和特征取值，并且股票的标签 y 取值为买或不买，因此理论上可以得到一个由 12 种不同取值组成的假设空间：$4 \times 3 = 12 $

408 特征向量（feature vector）

假如将以下 11 个属性（注意：Survived 列为标签列，不算在内）作为 11 个坐标维度，其值就是一个坐标向量，被称为一个特征向量，记为 $(x1, x2, …, x_11 )$

409 标记（label）

关于样本的标签信息，比如判断船员是否能被获救，那么这位船员便会拥有标记示例，一般用 $(Xi , yi) $ 表示第 $i$ 个样例，其中 $yi$ 是样本 $Xi$ 的标记。如下红框对应列就是样本的标记 $y_i$

410 维数（dimensionality）

每个样本包含的属性个数，泰坦尼克号源数据集共有 11 个特征如上图所示，那么它的维数便是 11，这是机器学习中需要理解的重要概念，同时要注意和线代中维数概念加以区分。

如下影评数据集的维数为 12 ：

411 学习（learning）

从数据中学得模型的过程，又称为训练（training）。正如上文所示，892 条船员数据集，根据它的 11 个特征和每条特征对应的标记，经过计算最后得到了一个 $f$，通过这个 $f$ 我们能预测第 893 位船员是否获救，这个过程被称为学习。

412 训练数据（training data）

训练过程中使用的数据，其中每个样本称为一个训练样本（training sample），训练样本组成的集合称为训练集（training set）。如下泰坦尼克号训练数据集的文件名称

共有 892 行，除去表头共有 891 个样本组成的训练数据，Survived 列为标签。

通过这些训练数据学习，最终得出一个 $f$，也就是我们学到的模型。与之相对应的是测试数据，测试数据中缺少标签列。例如，泰坦尼克号测试数据集中没有 Survived 列，是一个 418 行 11 列的数据集。

训练数据主要用于训练模型，训练后得到的模型对训练数据是可见的，那么再基于训练数据评估模型的好坏就完全失去意义，因此我们需要找到一些模型未知的新数据，以此来评估模型才具有价值，我们称这部分数据为测试数据。

通常训练数据占到整个数据集的 80%，测试数据占 20%，如下所示：

基于训练数据和测试数据模式的机器学习流程，主要就是先在训练数据集上得到一个模型，然后再在测试数据集上评估模型，根据在测试数据集上获得的效果调整模型，然后再训练，重复迭代。从中选出在测试数据集上表现最好的模型。

最低0.47元/天解锁文章

zg1g

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 全栈 400 之机器学习练习

404 数据集（data set）记录的集合，假如我们用 3 个特征，分别为性别、头衔、有无同行人来预测泰坦尼克号上船员的生死，并且拥有基于这 3 个特征的 892 条记录，其中一条记录的取值为：性别=female，头衔=Mrs，有无同行人=True如果记录到 .csv 文件中，这个文件的结构可以记为： train[892][3] ，这样一个二维数组，行数为 892，列数为 3.405...
复制链接

扫一扫