1.学习机器学习这门课,首先问下自己,什么是机器学习。
2.机器学习的一些术语
1.数据集(二维表)
2.对象、事例、事件、样本、记录-------二维表的一行
3.属性-----二维表的一列
4.属性值--------二维表中一个单元格的值
5.属性空间------属性张成的空间,也称为样本空间或者输入空间
6.维数------属性的个数(一行除去标签列的列数)
7.标记或者决策属性-------bool型的属性
8.学习----------从数据集中得到模型的过程
9.训练集---------用于训练的数据集
10.样本和样例都是指二维表的一行。有标记的称为样例,无标记的称为样本
11.标记生成的空间称为标记空间或者输出空间
12.有监督的预测分为两类
1.分类(离散)
2.回归(连续)
13.用于检查数据的过程称为测试
14.注意区分训练和测试
15.聚类(无标记)-----分组变为簇的过程
16.分类------预测(监督学习)
17.聚类-----分组(无监督学习)
18.泛化:模型对新数据的处理能力 不具有泛化能力:模型不能很好的应对数据
19.理论基础:独立同分布
20.归纳: 特殊----------------一般
21.演绎: 一般----------------特殊
22.假设空间:所有取值的组合
23.版本空间:假设空间中符合训练集的组合
24.当版本空间内出现判断结果二义性:引出归纳偏好的概念
25.对于归纳偏好,常用的解决方案是奥卡姆剃刀模型(选择最简单的模型)
26.没有免费的午餐定理:总误差与算法无关
第一节课要求:给出一些样例,能够求出对应的版本空间(最好代码实现)