机器学习科普

原创已于 2023-06-08 10:59:48 修改 · 249 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2023-06-08 10:52:18 首次发布

机器学习是一种人工智能的分支，是利用计算机程序来学习数据的一种方法。它的主要目的是让计算机系统能够自动地从数据中学习和改进，并且能够根据学习到的知识来做出决策或预测。机器学习可以被视为一种自动化的数据分析方法，通过大量的数据和相关算法，让计算机能够自主的学习并取得新的知识和技能，从而能够更好地解决各种实际问题。

欧氏距离：

欧式距离(Euclidean distance)是一种用于衡量两点之间距离的度量方法。在二维空间中，欧式距离是两点之间的直线距离；在三维空间中，欧式距离是两点之间的球面距离。

我们可以通过以下步骤来理解欧式距离：

1. 首先，我们需要知道两个点的坐标。例如，假设我们有两个点A(x1, y1, z1)和B(x2, y2, z2)。

2. 然后，我们需要计算这两个点之间的差值。对于二维空间中的点，差值是一个向量(dx, dy),其中dx = x2 - x1,dy = y2 - y1。对于三维空间中的点，差值是一个向量(dx, dy, dz),其中dx = x2 - x1,dy = y2 - y1,dz = z2 - z1。

3. 接下来，我们需要计算这个差值向量的平方。这是因为欧式距离是通过计算两个点之间的直线距离来得到的，而直线距离等于向量长度的平方根。因此，我们需要将差值向量的每个分量平方，然后将它们相加。对于二维空间中的点，总平方和为(dx^2 + dy^2);对于三维空间中的点，总平方和为(dx^2 + dy^2 + dz^2)。

4. 最后，我们需要计算这个平方和的平方根。这就是欧式距离。对于二维空间中的点，欧式距离为√((dx^2 + dy^2));对于三维空间中的点，欧式距离为√((dx^2 + dy^2 + dz^2))。

监督学习和无监督学习：

监督学习是机器学习的类型，其中机器使用“标记好”的训练数据进行训练，并基于该数据，机器预测输出。标记的数据意味着一些输入数据已经用正确的输出标记。

在监督学习中，提供给机器的训练数据充当监督者，教导机器正确预测输出。它应用了与学生在老师的监督下学习相同的概念。

监督学习是向机器学习模型提供输入数据和正确输出数据的过程。监督学习算法的目的是找到一个映射函数来映射输入变量（x）和输出变量（y）。

在现实世界中，监督学习可用于风险评估、图像分类、欺诈检测、垃圾邮件过滤等。

监督学习运作：在监督学习中，模型使用标记数据集进行训练，其中模型学习每种类型的数据。训练过程完成后，模型会根据测试数据（训练集的子集）进行测试，然后预测输出。

监督学习步骤：

首先确定训练数据集的类型
收集/收集标记的训练数据（一般可能需要手动标记）
将训练数据集拆分为训练数据集、测试数据集和验证数据集。
确定训练数据集的输入特征，这些特征应该有足够的知识使模型能够准确地预测输出。
确定适合模型的算法，如支持向量机、决策树等。
在训练数据集上执行算法。有时我们需要验证集作为控制参数，它们是训练数据集的子集。
通过提供测试集来评估模型的准确性。如果模型预测出正确的输出，这意味着我们的模型是准确的。

监督机器学习算法的类型

监督学习可以进一步分为两类问题：回归和分类。

1.回归
如果输入变量和输出变量之间存在关系，则使用回归算法。它用于预测连续变量，例如天气预报、市场趋势等。以下是一些流行的回归算法，它们属于监督学习：

线性回归
回归树
非线性回归
贝叶斯线性回归
多项式回归
2.分类
当输出变量是分类时使用分类算法，这意味着有两个类别，例如是 - 否，男性 - 女性，真假等。垃圾邮件过滤，是否为垃圾等。

可能用到的算法：

随机森林
决策树
逻辑回归
支持向量机

无监督学习：

无监督学习是一种机器学习技术，其中模型不使用训练数据集进行监督。相反，模型本身会从给定数据中找到隐藏的模式和见解。它可以比作在学习新事物时发生在人脑中的学习。它可以定义为：

监督学习是一种机器学习，其中模型使用未标记的数据集进行训练，并允许在没有任何监督的情况下对该数据进行操作。

无监督学习不能直接应用于回归或分类问题，因为与监督学习不同，我们有输入数据但没有相应的输出数据。无监督学习的目标是找到数据集的底层结构，根据相似性对数据进行分组，并以压缩格式表示该数据集。

为什么要使用无监督学习？
以下是描述无监督学习重要性的一些主要原因：

无监督学习有助于从数据中找到有用的见解。
无监督学习与人类通过自己的经验学习思考非常相似，这使得它更接近真正的人工智能。
无监督学习适用于未标记和未分类的数据，这使得无监督学习更加重要。
在现实世界中，我们并不总是有输入数据和相应的输出，因此为了解决这种情况，我们需要无监督学习。

无监督学习算法的类型
无监督学习算法可以进一步分为两类问题：聚类和关联

聚类：聚类是一种将对象分组为聚类的方法，使得具有最多相似性的对象保留在一个组中，并且与另一组的对象具有较少或没有相似性。聚类分析发现数据对象之间的共性，并根据这些共性的存在和不存在对它们进行分类。
关联：关联规则是一种无监督学习方法，用于查找大型数据库中变量之间的关系。它确定在数据集中一起出现的项目集。关联规则使营销策略更加有效。例如购买 X 商品（假设是面包）的人也倾向于购买 Y（黄油/果酱）商品。关联规则的一个典型例子是市场篮子分析。