机器学习初识1

最新推荐文章于 2024-11-10 17:23:57 发布

qq_44705097

最新推荐文章于 2024-11-10 17:23:57 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/qq_44705097/article/details/124460523

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

机器学习是指从大数据集中推断出模式的通用技术或者基于通过分析现有已知数据所获得的知识来对新数据进行预测的能力。大致分为三类：监督学习，无监督学习，强化学习。

机器学习算法的任务：绘制一个超平面来分离具有不同特征的点。

1.监督学习

监督学习算法是利用一组标记（已分类）的数据来对相似未标记的数据进行分类的一类机器学习算法。标记可以是离散的和连续的。

比如，对大量的电子邮件分类。监督学习算法将被提供已由用户标记为垃圾邮件或正常邮件的大量邮件（标记的数据），先遍历所有标记的数据，并预测电子邮件是否为垃圾邮件。通常情况下，该算法在首次遍历所有未标记数据时，会做出错误的标记，其执行过程相当糟糕。在每次运行之后，算法都会将预测的结果与期望的结果（已标记的数据）进行比较，通过比较过程，该算法会提高自身的性能和准确率。这种算法依赖于大量数据，通过大量数据，它将学会什么特征（或特性）会导致分类的结果。在标记的数据（训练数据）上遍历一定时间后，该算法的准确率不再提高，然后将其用于新的邮件，以测试其在识别新的未标记数据时的准确率。

(cxn)简单理解，从一堆标记的数据中，对他们分类，达到最高准确率后，用此算法对未标记的数据分类。

对于标记的数据，可以是分好多类（离散），也可以是一个连续的函数（回归问题）。

从数学角度：要在数据集上建立一个函数 $f$ ，数据集将由按特征组织起来的信息组成。每一个数据的特征会对应一个值。机器学习算法会将这些值映射到一个表示类别集的离散范围，或者（在回归案例）映射到一个实值。算法将遍历许多示例（已标记的数据），直到可以定义一个最佳函数来匹配大多数标记的数据。然后用此函数对未标记的数据进行预测。函数定义如下：