西瓜数据集3.0_西瓜书.绪论.学习笔记（一）

最新推荐文章于 2023-10-18 11:44:51 发布

weixin_39537298

最新推荐文章于 2023-10-18 11:44:51 发布

阅读量1k

点赞数

文章标签：西瓜数据集3.0

第一次作瓜书笔记有什么不足还请各位大佬们多多补充

一，机器学习（ML）的概念

在遇到一些问题的时候，我们用构建模型的方法来解决问题。怎么才能让你建立除来的模型更好，准确率更高，适应性更广呢？这就是我们为什么来学习“机器学习”这门学科。机器学习主要研究“模型的算法”也就是“学习算法”，有了这种学习算法，我们就可以将我们模型进行不断地优化，来提升模型。

二，基本术语

进行机器学习之前，我们准备的数据，我们采集了有关于西瓜的数据，以下是对西瓜描述：这些数据被称为”数据集“

每一组数据是对一个西瓜的描述称为“样本”或“示例”

"色泽","根蒂"，“敲声”这是西瓜的一些特性被称为“属性”或“特征”

属性对应的“青绿”“蜷缩”“浊响”是”属性值“或”特征值“

属性形成的空间称“属性空间”或“样本空间”也称“输入空间”

“特征向量”在空间中我们将所有的属性值结合起来会有一个对应的点，而每一个点都会对应一个向量坐标

“维数”就是样本中对应有几个属性

“标签”一个样本对应的一个瓜，判断出来是“好瓜”或“坏瓜”，而“好瓜”或“坏瓜”就是这个的标签

学习任务主要分俩大类：一类是“分类”（预测离散值）一类是“回归”（预测连续值）。“分类”就是判断瓜是“好瓜”或“坏瓜”，只有俩种结果被称为“二分类”。在“二分类”中一般称一个类是“正类”，另一个就是“负类”。还有“多分类的任务”，就是涉及俩种以上的类别。“回归”，列如判断一个西瓜的成熟度0.51，0.95 。

“聚类”，我们将训练集中的瓜分成若干组，每一组称为一个“簇”列如“深色瓜”，“浅色瓜”等。这种学习的过程有助于我们更好的对数据规律的掌握，在聚类学习的过程中，事先并不知道“深色瓜”，“浅色瓜”这种概念，也没有训练标记。

“监督学习”与“无监督学习”学习任务的俩大类，根据是否拥有标记信息，分类与回归一般是“监督学习”的代表，而聚类是“无监督学习”的代表。

机器学习的目标是让模型更好的适应“新样本”也就是“测试集”，而学得模型适应“测试集”的能力，称为”泛化能力“。具有强”泛化能力“的模型能够很好反映出样本空间的特性。一般来说，训练样本越多，我们得到的“分步”信息越多，这样学习出来的模型有更强的“泛化能力”。

三，假设空间

推理方法：“归纳”与“演绎”，“归纳”是从特殊到一般的“泛化”，是从具体的一件事件中归纳出规律。而“演绎”则是从一般到特化的过程。从样本中学习是属于“归纳学习”。“归纳学习”有狭义与广义，狭义的归纳学习是要从样本中学得概念，也称“概念学习”，他是最简单的布尔概念学习，布尔学习只有俩种结果：“是”或“不是”。例如：