本文试图用一个简单的案例来描述机器学习的各种术语。个人认为机器学习入门未必有多难,但这些术语常令人不明觉厉,也让人望而却步。
案例一:某程序能够根据人员信息计算该人的信用等级。该程序根据已有的100万个申请记录【年龄、性别、年收入 、学历 、房产、 信用级别】进行复杂的数学运算,得出一套运算规则,该规则对【年龄、性别、年收入 、学历 、房产】这些数据项进行加权计算,形成分数,并根据分数得出信用级别【不合格、银卡、金卡】。有了这套规则,只需要输入某用户的相应信息,就能知道是否可以办理信用卡了。
- 100万个申请记录被称为样本(或训练样本,或训练集,或样本集)
- 年龄(或性别、学历等)这些数据项被称为样本的特征(或样本的属性)
- 年龄、性别、年收入 、学历 、房产等多个特征放在一起称为特征向量
- 得分高60分为合格,60被称为阈值
- 年收入是数值型变量,而性别是标称型变量(也就是枚举变量,叫枚举不好听吗?为什么搞出那么多新名词?)
- 信用级别被称为目标变量(预测结果)。目标变量如果是标称型变量也被称为类别,因为这套算法的主要内容就是分类(或模式识别)(判断人属于哪一类)。目标变量如果是数值型变量,这样的案例被称为回归
- 规则形成后,还需要准备1万条测试数据,用于测试这套规则是否准确(实际上,不可能100%准确,所以要得到的是精确度)
- 算法精确度已经满足要求后,常常还需要用人类的语言描述计算过程,例如有房产+10分,本科+5分,硕士+8分等等。用人类的语言描述计算过程叫做知识表示,有些知识表示是规则集,有些是概率分布,有些则很难用人类语言来描述。
- 这套规则可以称为信用评估专家,它能像一个经验丰富的专家一样做出准确的判断,所以机器学习的软件被称为专家系统
- 案例有很明确的目标(本例的目标是计算信用级别),这样的案例属于监督学习。某些案例没有明确的计算目标(例如 ...待补充),则被称为非监督学习
- 这套程序就是机器学习程序,其中对100万个申请记录的分析过程也被称为训练
案例二:鸟类学家在各地安装了一万个喂食器,并通过传感器采集下表所示信息(大约1万条),再用机器学习程序自动确定鸟的种属。请根据上述知识,脑补一下在本例中什么是样本、特征、类别以及本例属于哪类机器学习?
序号 | 体重(克) | 翼展(厘米) | 脚蹼 | 后背颜色 | 种属 |
1 | 1000.1 | 125.0 | 无 | 棕色 | 红尾鵟 |
2 | 3000.7 | 200.0 | 无 | 灰色 | 鹭鹰 |
3 | 3300.0 | 220.3 | 无 | 灰色 | 鹭鹰 |
4 | 4100.0 | 136.0 | 有 | 黑色 | 普通潜鸟 |
案例一描述并不准确,形成运算规则并不一定要采用加权计算的方式,事实上,针对不目的问题需要采用不同的算法:
- 监督学习
- 分类
- 分类器算法(待补充)
- 回归
- 回归算法(待补充)
- 分类
- 非监督学习
- 聚类算法
- 密度估计算法
待补充......