写在前面
即将步入研究生阶段,之前一直偷懒没有写博客和整理的习惯,很多东西都是学了又忘,忘了又学的状态,现在开始尝试着坚持养成整理归纳的习惯。
本篇是对吴恩达老师的机器学习课程进行学习和归纳总结,会结合学习周老师的西瓜书。
机器学习定义
Tom Mitchell定义:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。
例子:玩跳棋游戏中,经验E是人与跳棋的对战,任务T是玩跳棋,性能P是玩下一局时跳棋程序获胜的概率。
常见的机器学习算法
主要的机器学习算法分为两类:
- 有监督学习
- 无监督学习
区别在于前者时我们会教计算机做某件事,而后者是计算机自己学习。
其他算法:强化学习,推荐算法。
监督学习(Supervised Learning)
定义:给定算法正确的数据集,算法根据数据给出更多的正确答案。
回归问题(Regression):即预测连续的数值输出。
分类问题(Classification):预测出一个离散输出。
回归问题例子:卖货物,接下来的三个月将会卖出多少货物;
分类问题:顾客账户是否被入侵,0代表无,1代表已被入侵。
无监督学习(Unsupervised Learning)
定义:根据类别未知的训练集(未标注的训练集)来解决模式识别中的各种问题。诸如聚类算法(谷歌新闻将同一事件的网址整合在一起),给定一系列顾客,计算机自动分类,分出目标顾客群;这些都是无监督学习。
为什么采用无监督学习:
- 缺乏足够的先验知识,因此难以人工标注分类;
- 人工标注的成本太高。
常见的应用背景:
1. 从大量的样本集中选出一些具有代表性的用以标注给分类器训练;
2. 先将样本集进行简单的分类,分为不同的类别,之后再人工标注;
3. 在无类别信息情况下,寻找好的特征。