机器学习基础知识

原创 2016年06月01日 22:07:35

Machine Learning的主要两个应用方面:人工智能、数据科学

什么是人工智能(Artificial Intelligence)?

AI是不确定性管理(Uncertainty Management)的体现

AI = What to do when you don't know what to do

不确定性可能由以下原因造成:

传感器的局限性(Sensor Limits)--- 无法给出足够的信息来感知周围环境

敌手(Adversaries)---故意做出某种行为来加大AI对事件判断的误差

随机环境(Stochastic Environments)--无法预测结果的环境因素

延迟(Laziness)---即使知道怎么算,也无法及时算出结果

无知(Ignorance)---对所发生的事情无权不知道,也许可以知道,但是不屑于知道

基于知识的AI的三个基本过程(Foundamental Processes):分别是Reasoning(理解,决策,行动等),Learning(从结果的正确与否进行学习),Memory(存储学习的结果,为Learning和Reasoning提供数据参考),这三个过程构成了AI Agent体系结构的一部分,称之为Deliberation。

AI Agent体系架构:


AI的四个学派,如图的四个象限:


贝叶斯规则:

P(A|B) = P(B|A)*P(A)/P(B)

其中,P(B|A)为似然概率,P(A)为先验概率,P(B)为边缘似然概率。P(A|B)为后验概率。B可以理解为evidence,而A可以理解为cause,P(A|B)则类似于根据结果溯源。

根据零容忍度原理,P(B)可以展开为P(B) = ∑a P(B|A=a)P(A=a)   理解:a可以代表各种能导致B发生的C,D,E,F...事件。


什么是数据科学(Data Science)?

构造分析利用数据的模型,从各式各样数据中抽丝剥茧,提取出有价值的信息,通过机器学习,做出最优化的结论。

数据科学家可以通过对数据的分析建模,最终达到两种结果,一种是建立预测模型,对未来进行预测。一种是统计数据,分析数据得出结论并报告。


什么是机器学习?

机器学习就是着手于现有收据,学习造成现有结果的机制和学习能够解释它们的模型。核心:Learning Concepts and Building Models.

一些术语:

what(is being learned): parameters ,structure ,hidden concepts

what from: supervised , unsupervised , reinforcement

what for:prediction, diagnose, summarization。。。

how: passive ,active,online,offline

outputs:classification,regression

details:generative,discriminative


机器学习分类:

监督学习(Supervised  Learning):函数逼近(Function Approximation),从已经有了标签的数据中获取信息来标记新的数据。归纳(Induction)的过程(Find the rule)

非监督学习(Unsupervised Learning):精炼描述(Concise Description),没有任何标签,没有什么指示,与监督学习的关系可以理解为通过非监督学习得出一些总结性结论,这些结论作为监督学习的输入,从而达到对新的数据进行标记的效果。

增强学习(Reinforcement Learning):Learning from delayed reward。从结果得知好坏,从而反推过程中哪一步是关键的,做出优化。而在过程中是不知道对错或关键步骤的,直到结果已经出现,好坏已经定性。


归纳(Induction),演绎(Deduction),溯源(Abduction):


归纳是从Cause到Effect的过程中去寻找隐藏的Rule。

演绎是依照Rule而从Cause推理出Effect。

溯源是拿着Effect按照Rule来溯源可能造成Effect的Cause。

只有演绎是一个结果确定的过程。


分类(Classification)和回归(Regression):

分类:y  {0,1}或者更多选择

回归:y ∈[0,1]或者∈R

奥卡姆剃刀(Occam’s Razor)原则:当其他条件都一样是,选择复杂性较低的那个。

拟合误差和复杂度的关系如图:


理想状况是复杂度越高,拟合误差越小,实际情况下,对未知数据的泛化误差曲线是过度拟合误差和训练数据误差之和。

所以最理想的复杂度是在泛化误差最小处。过度拟合是导致偏差的主要来源。如果结果不理想的情况下,可以尝试适当降低复杂度以提高拟合度。



看懂论文的机器学习基础知识(一)

虽然南京大学周志华老师的论文已经写得非常浅显易懂了,但是对于只有点概率统计基础的我来说还是有许多地方看不懂,而且概率统计的知识早在几年前学的,现在经常没有用到导致很多概念在见到的时候还是会感觉很模糊,...
  • roypi
  • roypi
  • 2013年12月28日 17:16
  • 2504

图像与机器学习-2-基础知识及cs231n/assignment1

part 1 机器学习基础知识: 刘洋师兄精心准备之后给我们讲解了机器学习中的一些基础知识: 包括线性回归,逻辑回归,交叉熵,softmax,KNN,神经网络中梯度的传递思想。 part 2...

机器学习中距离和相似性度量方法,基础知识贴

原文出处: daniel-D 的博客(@迅猛龙Daniel )    在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖...

机器学习基础知识(一)

概率论加和规则: 乘积规则: 即: 根据乘积规则,以及对称性p(X,Y ) = p(Y,X),我们⽴即得到了下⾯的两个条件概率之间的关系:p(Y | X) =p(X | Y )p(Y )/p(X...

机器学习算法基础知识

可利用的算法非常之多。困难之处在于既有不同种类的方法,也有对这些方法的扩展。这导致很快就难以区分到底什么才是正统的算法。在这个帖子里,我希望给你两种方式来思考和区分在这个领域中你将会遇到的算法。 ...
  • neilol
  • neilol
  • 2015年06月24日 16:49
  • 851

看懂论文的机器学习基础知识(一)

虽然南京大学周志华老师的论文已经写得非常浅显易懂了,但是对于只有点概率统计基础的我来说还是有许多地方看不懂,而且概率统计的知识早在几年前学的,现在经常没有用到导致很多概念在见到的时候还是会感觉很模糊,...

机器学习基础知识、与图像处理等技术的关系

在36氪上看到一篇很好的关于机器学习的文章,对机器学习与各个领域的结合讲得非常清晰。 现小结一下如下。 基本定义: 机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律...

机器学习(2)数学基础知识-线程代数

原文地址:http://blog.csdn.net/longxinchen_ml/article/details/51629328 作者:Zico Kolter (补充: Chuong Do)   ...

机器学习之基础知识

矩阵与方程组,行列式,向量空间,线性变换,正交性,特征值,数值线性代数...

机器学习相关的线性代数基础知识合集

数学是计算机技术的基础,线性代数是机器学习和深度学习的基础,了解数据知识最好的方法我觉得是理解概念,数学不只是上学时用来考试的,也是工作中必不可少的基础知识,实际上有很多有趣的数学门类在学校里学不到,...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习基础知识
举报原因:
原因补充:

(最多只允许输入30个字)