I. Introduction
1. What is ML
对机器学习的准确定义仍存在争议,Ng提到了两种尝试性定义:
- Arthur Samuel(1959): Field of study that gives computers the ability to learn without being explicitly programmed. 在没有明确编程的情况下,给予计算机自学能力的研究领域
- Tom Mitchell(1988): A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T , as measured by P, improves with experience E. 计算机程序通过经验E,提高了处理任务T的绩效(用P衡量),那么我们称该计算机程序从与任务T和绩效指标P有关的经验E中学习
Example:垃圾邮件(spam)归类
E——观察用户是否将邮件归类垃圾邮件
T——将邮件按照垃圾/非垃圾邮件归类
P——归类的正确率
2. ML Applications
- 搜索引擎的内容排序
- AI
- 数据库挖掘(网络点击数据、电子医疗记录、人类基因库等)
- 仅通过手动编码无法实现的项目(自主飞行直升机、计算机视觉、自然语言处理等)
- 用户自定制程序(淘宝/网易云音/B站等的推荐系统)
- ……
3. ML Algorithms
机器学习的主要类型包括监督学习和无监督学习,这两种类型也是本课程的讲解重点。其中,监督学习的输入数据集有标签(示例中的y),在程序运行前就可对输出结果有大致的掌握,而无监督学习的输入数据集无标签,只有数据集属性(示例中的X),且输出结果不可预测。
3.1 Supervised Learning 监督学习
-Regression: mapping input variables(X) to some continuous function(y) 将X映射到连续序列y
eg: (X,y)=(房屋面积,房价)
-Classification: mapping input variables(X) to discrete categories(y) 将X映射到离散序列y
eg: (X,y)=(肿瘤大小,是否为恶性肿瘤)
3.2 Unsupervised Learning 无监督学习
-Clustering: clustering the data based on relationships among the variables(X) in the data 通过对象之间的相似性将对象分类
eg: 给出用户数据,自动发现市场分割并将用户归类 X=(年龄,性别,职业等)
-Non-clustering
eg: Cocktail party problem 鸡尾酒会问题:如何让机器学会在嘈杂的环境中区分出人声?
3.3 Others
-Reinforcement Learning 增强学习
-Recommender Systems 推荐系统