一、绪论
- 引言
机器学习所研究的主要内容:从数据中产生“模型”的算法,即学习算法。
本书用“模型”泛指从数据中学得的结果。有的文献用“模型”指全局性结果(例如一颗决策树),用“模式‘指局部性结果(例如一条规则)
- 基本术语
数据集、训练集、测试集;监督学习·····等等
机器学习的目标是使学得的模型能很好的适用于新样本,即泛化能力:
- 假设空间
归纳与演绎是科学推理的两大基本手段;
机器学习是 “从样例/数据中学习”, 是归纳的过程,因此是归纳学习;
归纳学习的广义:从样例中学习;
归纳学习的狭义:从训练数据中学得概念;所以也叫“概念学习”。
1、假设:如:假设“好瓜”可由“色泽”“根蒂”“敲声”这三个因素完全确定;
个人理解:=》假设的是数据特征与结果的关系,其实假设的也就是模型。
2、我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的瓜判断准确的的假设。
3、假设空间:所有假设出来的模型所组成的空间。
- 归纳偏好
1、同一个训练集,不同的学习算法学习出来的模型,用来判断同一个样本,结果可能不一样,=》学习算法本身具有对某种类型假设的“偏好”。
2、机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好,或简称“偏好”。
3、任何一个有效的机器学习算法必有其偏好。也因为学习算法有其偏好,才能产生它认为“正确”的模型,否则无法产生确定的学习结果。
4、事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。
在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法是否取得好的性能=》(我的理解:性能=泛化能力)
- 发展历程
········
20世纪80年代,从样例中学习=》主流,符号主义学习,代表:决策树、基于逻辑学习。
2、20世纪90年代中期之前,另一主流,基于神经网络的连接主义学习,,著名:BP算法
3、20世纪90年代中期,统计学习,提出了结构风险最小化的原则,代表技术:支持向量机(简称SVM)、核方法;
4、21世纪初,连接主义卷土重来,掀起了以“深度学习”为名的热潮。
- 应用现状
1、收集、存储、传输、管理大数据的目的,是为了“利用”大数据,如果没有【机器学习技术分析】数据,则利用无从谈起;
2、简单探讨一下机器学习和数据挖掘的联系:
- 数据库领域的研究为数据挖掘提供数据管理技术,
- 而机器学习和统计学的研究为数据挖掘提供数据分析技术。
- 阅读材料(略)
二、习题解答参考
1.1,
概念理解:
假设空间:属性所有可能取值组成的可能的样本
版本空间:与已知数据集一致的所有假设的子集集合。只留下包含正例,不包含反例的结果。
根据题意:
- 极端情况:有可能“好瓜”不成立,这是一种假设可能;
2)色泽、根蒂、敲声分别有2,2,2种可能取值;
所以设空间规模大小:333+1 = 28
代码
good_exms = [('青绿', '蜷缩', '浊响')]
bad_exms = [('乌黑', '稍蜷', '沉闷')]
all_exm = [i for i in set(good_exms + bad_exms + [('*', '*', '*')])]
color = set(i[0] for i in all_exm)
wb = set(i[1] for i in all_exm)
sound = set(i[2] for i in all_exm)
all_result = [(None, None, None)]
num = 1
print('假设空间', '\n', '-'*30)
print(f'第{num}种假设: 好瓜不存在;')
for c in color:
for w in wb:
for s in sound:
num += 1
all_result.append((c, w, s))
print(f'第{num}种假设: 色泽={c},根蒂={w},敲声={s};')
print('*'*50)
print('版本空间', '\n', '-'*30)
num = 0
for v in all_result:
num += 1
c, w, s = v
for good_exm in good_exms:
if not ((c in good_exm) or (w in good_exm) or (s in good_exm)):
continue
for bad_exm in bad_exms:
if not ((c in bad_exm) or (w in bad_exm) or (s in bad_exm)):
print(f'第{num}种假设: 色泽={c},根蒂={w},敲声={s}')
结果
假设空间
------------------------------
第1种假设: 好瓜不存在;
第2种假设: 色泽=乌黑,根蒂=稍蜷,敲声=浊响;
第3种假设: 色泽=乌黑,根蒂=稍蜷,敲声=沉闷;
第4种假设: 色泽=乌黑,根蒂=稍蜷,敲声=*;
第5种假设: 色泽=乌黑,根蒂=*,敲声=浊响;
第6种假设: 色泽=乌黑,根蒂=*,敲声=沉闷;
第7种假设: 色泽=乌黑,根蒂=*,敲声=*;
第8种假设: 色泽=乌黑,根蒂=蜷缩,敲声=浊响;
第9种假设: 色泽=乌黑,根蒂=蜷缩,敲声=沉闷;
第10种假设: 色泽=乌黑,根蒂=蜷缩,敲声=*;
第11种假设: 色泽=青绿,根蒂=稍蜷,敲声=浊响;
第12种假设: 色泽=青绿,根蒂=稍蜷,敲声=沉闷;
第13种假设: 色泽=青绿,根蒂=稍蜷,敲声=*;
第14种假设: 色泽=青绿,根蒂=*,敲声=浊响;
第15种假设: 色泽=青绿,根蒂=*,敲声=沉闷;
第16种假设: 色泽=青绿,根蒂=*,敲声=*;
第17种假设: 色泽=青绿,根蒂=蜷缩,敲声=浊响;
第18种假设: 色泽=青绿,根蒂=蜷缩,敲声=沉闷;
第19种假设: 色泽=青绿,根蒂=蜷缩,敲声=*;
第20种假设: 色泽=*,根蒂=稍蜷,敲声=浊响;
第21种假设: 色泽=*,根蒂=稍蜷,敲声=沉闷;
第22种假设: 色泽=*,根蒂=稍蜷,敲声=*;
第23种假设: 色泽=*,根蒂=*,敲声=浊响;
第24种假设: 色泽=*,根蒂=*,敲声=沉闷;
第25种假设: 色泽=*,根蒂=*,敲声=*;
第26种假设: 色泽=*,根蒂=蜷缩,敲声=浊响;
第27种假设: 色泽=*,根蒂=蜷缩,敲声=沉闷;
第28种假设: 色泽=*,根蒂=蜷缩,敲声=*;
**************************************************
版本空间
------------------------------
第14种假设: 色泽=青绿,根蒂=*,敲声=浊响
第16种假设: 色泽=青绿,根蒂=*,敲声=*
第17种假设: 色泽=青绿,根蒂=蜷缩,敲声=浊响
第19种假设: 色泽=青绿,根蒂=蜷缩,敲声=*
第23种假设: 色泽=*,根蒂=*,敲声=浊响
第26种假设: 色泽=*,根蒂=蜷缩,敲声=浊响
第28种假设: 色泽=*,根蒂=蜷缩,敲声=*
1.2