1 Introduction to Machine Learning
简单介绍了一下机器学习
1.1 什么是机器学习?
机器学习:设计和开发算法,基于历史数据,这些算法可以让计算机进化他们的行为。
通俗地讲,机器学习就是通过对大量的历史数据的学习,使得计算机不再是输出确定的信息,而是根据进化的程度,输出相应的信息。而且在进化过程中,计算机能自动地改进算法.
目前,具体的机器学习算法有:
(内容来自http://zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0)
1) 构造条件概率:回归分析和统计分类
A) 人工神经网络
B) 决策树
C) 高斯回归分析
D) 线性判别分析
E) 最近邻居法
F) 感知器,Frank Rosenblatt给出的常用的感知机学习有,感知机学习、最小二乘法及梯度下降法。
G) 径向基函数核
H) 支持向量机
2) 通过再生模型构造概率密度函数
A) 最大期望算法
B) Graphical Model:包括贝叶斯场和Markov随机场
3) 近似推断技术
A) 马尔可夫链(Markov chain),蒙特卡罗方法
B) 变分法
1.2 机器学习三要素:data , model , algorithms
大量的数据:
1) Web数据,
2) 点击流数据,
3) 事务数据,比如电商的交易数据。
4) 图像数据,
1.3 机器学习的应用
1) 计算机视觉,对象识别、检测、跟踪。
2) 语音识别,
3) 自然语言处理(NLP),如机器翻译、信息抽取、信息检索、问答系统及文本分类。
4) Web 搜索,如百度、及百度右侧的广告。
5) 推荐系统,如亚马逊的销售量的1/3来自于推荐系统。
6) 机器人:无人驾驶汽车,如谷歌的无人驾驶汽车在闹市行驶30W仅是,没有犯一次错误。
1.4 机器学习的范式
1) 监督学习,分类、回归、预测等。
给予{xi,yi},学习y=f(x;θ)。
分类,xi表示文档,yi表示类别,用于文档分类,是经济类、政治类、或其他topic类的文章。
回归,y为连续型变量,例如对温度的预测,薪水的预测。
2) 非监督学习
给予{xi},学习y=f(x;θ)。
与监督学习不同的是,非监督学习没有给出y.
通常可以计算概率密度,密度大的表示典型数据,密度小的表示非典型数据。因此,非监督学习常用于异常检测。对Understand Data比较有用,比如将高维数据reduce到两维空间,做可视化分析,看有没有什么有兴趣的东西。
参考文献
维基百科
龙星计划—余凯课件