从零开始学习机器学习的理论知识,选用林轩田的机器学习基石课程以及其配套的课件和书(learning from data),红石头整理的笔记,因为便于理解自己整理一遍,以强化理解学习。
其课程讲授导图如下所示:
什么是学习?
人类获取知识的过程是通过观察积累经验,而机器获取知识的过程是通过数据积累经验。
更具体的定义:
机器学习的过程是从data出发,经过电脑的计算分析,得到某种表现的增进。
例如股票预测:
机器学习的三个关键:(决定是否适合使用机器学习)
1、存在可以学习的潜在模式;exists some underlying pattern to be learned
2、不知道如何将模式写下来,难以用编程技术解决;no programmable(easy) definition
3、拥有模式的相关数据;somehow there is data about the pattern
测验:
1、预测婴儿下一次什么时候哭(no pattern)
2、决定给定的图中是否包含一个圆(programmable definition 可以使用普通编程,不需使用机器学习)
3、决定是否给顾客申请信用卡
4、预测在未来十年地球是否会因为核能的滥用而毁灭(no(or not enough data))
答案:3
机器学习使用的领域:衣、食、住、行、育、乐
- Food:
data:使用推特上的数据(word + location);
skill:辨别在某个餐馆中就餐食物中毒的可能性;
- Clothing:
data:销售数据+客户调查;
skill:给客户推荐时尚穿搭;
- Housing:
data:建筑物的特征和能耗;
skill:预测建筑的耗能状况;
- Transportation:
data:交通信号图片以及意义;
skill:精确识别交通信号;
- 教育(education):
data:在数学教学系统上记录学生的答题状况;
skill:预测学生会不会大队一个给定的题目;
机器学习解决方式:根据大量学生的大量测试记录,机器学习自动决定学生的等级一级题目的难度;
- 娱乐(entertainment,推荐系统):学习用户的喜好
data:多个使用者对多部电影的评分;
skill:预测用户会怎样给一个未评分的电影进行评分;
可能的模型:用户的特征和电影的特征做內积,计算某个用户对某个电影的可能评分。
机器学习的组成部分:(使用银行卡决定是否给顾客发放信用卡的例子)
希望机器学习的东西:银行怎样发放信用卡会使收益最大。
input:x(客户资料)
output:y(发放信用卡后的效果好/坏)
target function:x->y(理想的信用卡发放公式)
data:训练数据(training example): (银行的历史记录)
hypothesis:假说(函数), ,希望的表现好的函数(将被使用的学到的公式);
机器学习的流程:得到与理想的公式最相像、最接近的
机器学习使用的模型:A(演算法)和H(hypothesis set)
机器学习与其他领域的关系:
- machine learning : 使用data计算hypothesis g 最接近理想的公式 f
- data mining:使用data 发现感兴趣的特征,传统的聚焦在大量数据的有效计算
- artificial intelligence:计算显示智慧行为的东西;
- statistics:统计,推论,实现机器学习的一种方法