绪论
1.1机器学习是能够用来干嘛的
我们在辨别一个西瓜的好坏的时候,我们都是通过其色泽,敲声等方便对其进行一个判断是否为一个好瓜,机器学习就是希望将人类所感知到的经验来实现并完成一定的目的,其致力于研究通过计算的手段来改善系统自身的性能,"经验"往往通过数据的方式存在,也就是说,机器学习是通过数据当中产生的模型的算法
1.2 机器学习的基本术语
简单介绍一些经常用到的基本术语,但是在学习的时候也会慢慢引入
名称 | 英文名称 |
---|---|
数据集 | d a t a s e t data set dataset |
样本 | s a m p l e sample sample |
样本空间 | s a m p l e s p a c e sample \ space sample space |
维数 | d i m e n s i o n a l i t y dimensionality dimensionality |
特征空间 | f e a t u r e v e c t o r feature \ vector feature vector |
学习 | l e a r n i n g learning learning |
训练 | t r a i n i n g training training |
训练数据 | t r a i n i n g d a t a training \ data training data |
测试样本 | t e s t i n g s a m p l e testing\ sample testing sample |
假设 | h y p o t h e s i s hypothesis hypothesis |
分类 | c l a s s i f i c a t i o n classification classification |
回归 | r e g r e s s i o n regression regression |
监督学习 | s u p e r v i s e d l e a r n i n g supervised \ learning supervised learning |
非监督学习 | u n s u p e r v i s e d l e a r i n g unsupervised \ learing unsupervised learing |
就先简单介绍一下部分专用的术语,这方面到时候大家学习的时候,遇到了再记也是没问题的
1.3 假设空间
归纳和演绎是科学推理的两大基本手段
对于判断一个西瓜是否为好瓜,其方法是多种多样的,那么我们可以把对好瓜的判断学习过程看作是一个再所有假设(
h
y
p
o
t
h
e
s
i
s
hypothesis
hypothesis)组成的空间进行搜索的过程,假设空间的方法有很多,例如自顶向下,从一般到特殊,从特殊到一般,最终获得的结果应当与训练集保持一致(图片表示的就是决策树这一种算法,其思想判断方法就是一种假设空间的方法)
1.4归纳偏好
如果每一个空间假设在训练过程中都尽可能的实现了对数据的较高的训练,但是问题就在于如果遇到了新的数据集当中,可能会因为过于注重训练精度而导致训练精度过高,造成了其在预测上面的精度并不高(也就是俗称的过拟合)
还有就是因为偏好的问题,可以理解为,一个好的西瓜可能并不能满足其色泽,根蒂,敲声都是完完全全符合要求的,往往可能只需要满足其中一种,就可以判断其是好瓜,对于这种类型假设的偏好,称为 “归纳偏好”
归纳偏好可以看作是学习算法自身在一个很庞大的假设空间中对假设进行选择的启发式或价值观,也就是什么样的模型更好
总结
归纳偏好十分重要,可以帮助我们理解并讨论算法的优劣,我们必须针对具体的学习问题,在某些问题上表现好的学习方法,在其他方面可能并不是很好,学习算法自身的归纳偏好与问题是否匹配,往往其决定性作用