机器学习定义
机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来玫善系统自身的性能在计算机系统中,“经验"通常以"数据"形式存在,因此机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型” (model) 的算法,即"学习算法" (learning algorithm).
泛化
尽管训练集通常只是样本需间的一个很小的采样,我们仍希望它能很好地反映出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作得很好.
样本分布
通常假设样本空间中全体样本服从A个未知"分布" (distribution) , 我们获得的每个样本都是独立地从这个分布上采样获得的,即"独立同分布" (independent and identically distributed,简称i.i.d.).
归纳与演绎
前者是从特殊到一般的"泛化" (generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的"特化" (specializatise)叫过程,即从基础原理推演出具体状况。
“奥卡姆剃刀”
“若有多个假设与观察一致,则选最简单的那个”
天下没有免费的午餐(NLF定理)
说明:
我们需注意到, NFL 定理有一个重要前提:所有"问题"出现的机会相同、或所有问题同等重要.但实际情形并不是这样.很多时候,我们只关注自己正在试图解决的问题(例如某个具体应用任务),希望为它找到一个解决方案,至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心.
通过NLF定理我们能知道的:
NFL 走理最重要的寓意?是让我们清楚地认识到,脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好
值得一提的是,机器学习备受瞩目当然是由于它已成为智能数据分析技术的创新源泉, 但机器学习研究还有另一个不可忽视的意义,即通过建立一些关于学习的计算模型来促进我们理解"人类如何学习"