第一章:监督学习与非监督学习简介
1,机器学习基本概念
什么是机器学习?
- 机器学习:机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论,统计学,逼近论,凸分论,算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能。
- 简单来说,机器学习就是在数据中挖掘潜在的规律,以便在下次遇到相似的数据时进行分析。就像我们上学时要做大量的练习题来巩固知识点和知识点之间的联系,以便在高考中取得好成绩。
机器学习:输入
基本概念:
特征向量
- 定义:简单来说,特征向量就是特征的集合。这些特征描述了一个特定的研究对象。
X = ( x 1 , x 2 , … , x n ) X = (x_1, x_2, …,x_n) X=(x1,x2,…,xn)
假设上方的向量X代表一个人,那么其中的维度则代表他的特征,例如身高,体重,薪资等等。 - 特征向量拥有多个维度,每个维度表示一个特征的取值;取值可以是连续的实数,也可以是离散的字符串,或者说是布尔类型的值。
- 也可以简单理解为,特征向量是数据库中一张表的一条记录。
- 需要注意的是,此处的特征向量的含义与矩阵的特征向量有所不同,矩阵的特征向量是存粹的数学意义的概念
标签
- 标签代表是特征向量所属的类别。比如我们定义了一个代表水果的特征向量,并且把它归类为苹果,那么苹果就是它的标签。
{ y ∣ y ∈ { − 1 , 0 , 1 , 2 } } \{y|y\in\{-1, 0, 1, 2\}\} { y∣y∈{ −1,0,1,2}}
为了在数学上表示方便,一般用整数值来表示标签。例如将苹果,梨分别映射成标签0,1。当标签未知时,可将其设为-1。
数据集
数据集就是特征向量和标签的集合,一个特征向量和一个标签就构成了数据集的一条记录。
S = { ( X 1 , Y 1 ) ,