【机器学习第一章——绪论】

最新推荐文章于 2024-08-20 18:45:43 发布

方寸星河yu

最新推荐文章于 2024-08-20 18:45:43 发布

阅读量970

点赞数 29

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_53694086/article/details/140562044

版权

机器学习第一章——绪论

1.绪论

1.绪论

1.1 机器学习的定义

利用经验改善系统自身的性能

在这里插入图片描述

随着该领域的发展，目前主要研究智能数据分析的理论和方法，并已成为智能数据分析技术的源泉之一。

1.2 典型的机器学习过程

在这里插入图片描述

1.3 机器学习理论

最重要的理论模型：
$P A C (概率近似正确)$
假设x为数据（样本），用这个数据放到模型中判断出来的结果为f(x)，真实结果为y
$|f(x)-y|\leq \xi,也就是希望两者的误差小于一个很小的值$
但是f(x)并不是每次都会很准确的判断，所以希望的是
$P(|f(x)-y|\leq \xi)\geq1-\delta\\ 每次都以很高的概率得到这个f(x)\\ 假如\delta=0，说明每次使用这个模型得到结果跟真的一样$

1.4 基本术语

数据集：全部数据的集合
训练与测试：抽取一部分数据对模型进行训练，训练达到一定量时，用测试集对模型进行检验
示例与样例：示例是不包含输出的，样例则是输入和输出的统称
样本：表格中的一条数据可以称为样本，一整张表格也能称为样本，需要具体问题具体分析
属性（特征）与属性值：“色泽”、“根蒂”、“敲声”为属性，属性上的取值称为属性值

属性空间、样本空间与输入空间：把属性作为坐标轴，可以绘制出多维空间，每个示例都能在空间中找到属于自己的点
特征向量：每个点都对应一个坐标向量。
标记空间（输出空间）：输出的结果构成的空间，比如西瓜是否是好瓜，输出的结果只有两种（是或否），那就是一个二维空间，所有输出都分布在两个坐标轴上。

假设和真相：通过数据的不断输入，模型学到了关于结果可能的规律，如果这个规律是对的，那就是真相。
- 例如x为数据（样本），用这个数据放到模型中判断出来的结果为f(x)，f(x)就是假设的结果，y则是真相
学习器：算法在给定数据和参数空间上的实例化
分类和回归：如果我们预测的是离散值，则称为分类；如果是预测的是连续值，则称为回归
二分类和多分类：二分类是最基本的问题，所有多分类问题都可以把它分解成若干个二分类问题
正类和反类：二分类中就涉及到两种样本，通常假设这两类是可交换的，可交换意味着这两类满足的分布和它的很多性质差不多，比如说数据集中，两类的比例是差不多
监督学习和无监督学习：监督学习中样例是有结果部分，是用来做预测任务；而无监督学习的样例是没有结果部分，那么无监督学习就不是用来预测数据的结果，比如说就不能判断西瓜的好坏程度，那么这种数据能做的就是可以把西瓜分成很多堆（根据颜色、产地或者大小），这就是聚类。无监督学习还可以用来做密度估计，比如说判断西瓜产地的分布。
未见样本：机器学习处理的是未来的新数据，这里就有一个基本的假设，我们拿到的所有数据都来自一个潜在的分布，实际上是假定了数据背后有一个规律，我们看到的数据都是从这个规律里面抽取出来的，而这个分布并不知道，称为未知分布
独立同分布：所有数据都是从这个未知分布中抽取出来的，这些数据称为独立同分布数据，因为只有认为每个样本都是独立同分布取出来的，才可以把它看成是一个独立随机事件，那么才能用独立随机事件出现的频率去逼近概率
泛化和特化：学到的模型处理新数据的能力，处理新数据的能力越强，泛化能力就越强，相当于从特殊到一般；而特化则是从一般到特殊。泛化则是指
$|f(x)-y|\leq \xi中,\xi能有多小$
比如
$∣ f (x) - y ∣ 的误差是大于 0.5$
那么这个概率跟随机猜测的概率是一样的，这就说明根本没必要用机器学习是实现。