定义
机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在。因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即,“学习算法"(learninig algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如,判断一个西瓜是否是好瓜),模型会给我们提供相应的判断。如果说,计算机科学是研究关于”算法“的学问,那么类似的,机器学习是研究关于”学习算法“的学问。
试想理想情况:我们有无限的训练数据(这些数据包含了各种情况),那么,我们训练的模型就完美了。因为,没有任何新的情况,任何情况在我们的训练集中都已经出现了,被模型看到了。如果这些训练数据是线性可分的,只要一个很简单的线性模型就可以将他们分开。
一些专业术语
data set
instance/sample
attribute/feature
attribute value
attribute space/sample sapce/input sapce
feature vector
dimensionality
learning.training
training data
training sample
training set
hypothesis
ground-truth
prediction
label
example
calssification/regression/clustering
supervised learning/unsupervised learning
generalization
distribution
independent and indentically distributed eg. i.i.d.
假设空间
现实问题中,我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的”假设集合“,称之”版本空间“。在版本空间中,各个假设,在训练集上是一致的,但是,在面临新样本时,可能产生不同的输出。
![假设集合](https://i-blog.csdnimg.cn/blog_migrate/fcbc3cfbd2f818581e2b1ed61c94e1e9.jpeg)
归纳偏好
机器学习在学习过程中对某种类型假设的偏好,称为”归纳偏好“。可看做是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或者”价值观“。
”奥卡姆剃刀“(Occam's razor):若有多个假设与观察一致,则选择最简单的那个。用于引导算法那确立”正确的“偏好。
”没有免费午餐“定理(NLF)