Machine Learning的主要两个应用方面:人工智能、数据科学。
什么是人工智能(Artificial Intelligence)?
AI是不确定性管理(Uncertainty Management)的体现
AI = What to do when you don't know what to do
不确定性可能由以下原因造成:
传感器的局限性(Sensor Limits)--- 无法给出足够的信息来感知周围环境
敌手(Adversaries)---故意做出某种行为来加大AI对事件判断的误差
随机环境(Stochastic Environments)--无法预测结果的环境因素
延迟(Laziness)---即使知道怎么算,也无法及时算出结果
无知(Ignorance)---对所发生的事情无权不知道,也许可以知道,但是不屑于知道
基于知识的AI的三个基本过程(Foundamental Processes):分别是Reasoning(理解,决策,行动等),Learning(从结果的正确与否进行学习),Memory(存储学习的结果,为Learning和Reasoning提供数据参考),这三个过程构成了AI Agent体系结构的一部分,称之为Deliberation。
AI Agent体系架构:
AI的四个学派,如图的四个象限:
贝叶斯规则:
P(A|B) = P(B|A)*P(A)/P(B)
其中,P(B|A)为似然概率,P(A)为先验概率,P(B)为边缘似然概率。P(A|B)为后验概率。B可以理解为evidence,而A可以理解为cause,P(A|B)则类似于根据结果溯源。
根据零容忍度原理,P(B)可以展开为P(B) = ∑a P(B|A=a)P(A=a) 理解:a可以代表各种能导致B发生的C,D,E,F...事件。
什么是数据科学(Data Science)?
构造分析利用数据的模型,从各式各样数据中抽丝剥茧,提取出有价值的信息,通过机器学习,做出最优化的结论。
数据科学家可以通过对数据的分析建模,最终达到两种结果,一种是建立预测模型,对未来进行预测。一种是统计数据,分析数据得出结论并报告。
什么是机器学习?
机器学习就是着手于现有收据,学习造成现有结果的机制和学习能够解释它们的模型。核心:Learning Concepts and Building Models.
一些术语:
what(is being learned): parameters ,structure ,hidden concepts
what from: supervised , unsupervised , reinforcement
what for:prediction, diagnose, summarization。。。
how: passive ,active,online,offline
outputs:classification,regression
details:generative,discriminative
机器学习分类:
监督学习(Supervised Learning):函数逼近(Function Approximation),从已经有了标签的数据中获取信息来标记新的数据。归纳(Induction)的过程(Find the rule)
非监督学习(Unsupervised Learning):精炼描述(Concise Description),没有任何标签,没有什么指示,与监督学习的关系可以理解为通过非监督学习得出一些总结性结论,这些结论作为监督学习的输入,从而达到对新的数据进行标记的效果。
增强学习(Reinforcement Learning):Learning from delayed reward。从结果得知好坏,从而反推过程中哪一步是关键的,做出优化。而在过程中是不知道对错或关键步骤的,直到结果已经出现,好坏已经定性。
归纳(Induction),演绎(Deduction),溯源(Abduction):
归纳是从Cause到Effect的过程中去寻找隐藏的Rule。
演绎是依照Rule而从Cause推理出Effect。
溯源是拿着Effect按照Rule来溯源可能造成Effect的Cause。
只有演绎是一个结果确定的过程。
分类(Classification)和回归(Regression):
分类:y ∈ {0,1}或者更多选择
回归:y ∈[0,1]或者∈R
奥卡姆剃刀(Occam’s Razor)原则:当其他条件都一样是,选择复杂性较低的那个。
拟合误差和复杂度的关系如图:
理想状况是复杂度越高,拟合误差越小,实际情况下,对未知数据的泛化误差曲线是过度拟合误差和训练数据误差之和。
所以最理想的复杂度是在泛化误差最小处。过度拟合是导致偏差的主要来源。如果结果不理想的情况下,可以尝试适当降低复杂度以提高拟合度。