机器学习绪论
1.版本空间(version space)
- 概念:与 " 训 练 集 " \color{red}{"训练集"} "训练集"一致的假设集合
- 求法:
- 根据训练集中的 " 正 例 " \color{purple}{"正例"} "正例",知 “ 好 瓜 ” \color{purple}{“好瓜”} “好瓜”的概念成立,故删除 ∅ \color{purple}{\empty} ∅的假设
- 删除 与 正 例 不 一 致 \color{purple}{与正例不一致} 与正例不一致的假设
- 删除 与 反 例 一 致 \color{purple}{与反例一致} 与反例一致的假设
- 剩余假设的集合构成版本空间
2.归纳偏好(inductive bias)
- 概念:机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias) , 或简称为"偏好"
- 意义:算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能.
3.奥卡姆剃刀(Occam’s razor)
- 概念:若有多个假设与观察一致,则选最简单的那个
- 注意:奥卡姆剃刀本身存在不同的诠释,使用奥卡姆剃刀原则并不平凡,“简单”的释意并不简单
4.没有免费的午餐定理(NFL,No Free Lunch Theorem)
- 概念:假设所有"问题"出现的机会相同或所有问题同等重要,无论学习算法 L a \mathfrak{L}_{a} La多聪明、学习算法 L b \mathfrak{L}_{b} Lb多笨拙,它们的期望性能相同
- 重要的寓意:
- 脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义
- 谈论算法的相对优劣,必须要针对具体的学习问题
5.大数据时代三大关键技术
- 机器学习(Machine Learning):实现数据分析
- 云计算(Cloud Computing):实现数据处理
- 众包(crowdsourcing):实现数据标记