机器学习基础知识

原创 2016年06月01日 22:07:35

Machine Learning的主要两个应用方面:人工智能、数据科学

什么是人工智能(Artificial Intelligence)?

AI是不确定性管理(Uncertainty Management)的体现

AI = What to do when you don't know what to do

不确定性可能由以下原因造成:

传感器的局限性(Sensor Limits)--- 无法给出足够的信息来感知周围环境

敌手(Adversaries)---故意做出某种行为来加大AI对事件判断的误差

随机环境(Stochastic Environments)--无法预测结果的环境因素

延迟(Laziness)---即使知道怎么算,也无法及时算出结果

无知(Ignorance)---对所发生的事情无权不知道,也许可以知道,但是不屑于知道

基于知识的AI的三个基本过程(Foundamental Processes):分别是Reasoning(理解,决策,行动等),Learning(从结果的正确与否进行学习),Memory(存储学习的结果,为Learning和Reasoning提供数据参考),这三个过程构成了AI Agent体系结构的一部分,称之为Deliberation。

AI Agent体系架构:


AI的四个学派,如图的四个象限:


贝叶斯规则:

P(A|B) = P(B|A)*P(A)/P(B)

其中,P(B|A)为似然概率,P(A)为先验概率,P(B)为边缘似然概率。P(A|B)为后验概率。B可以理解为evidence,而A可以理解为cause,P(A|B)则类似于根据结果溯源。

根据零容忍度原理,P(B)可以展开为P(B) = ∑a P(B|A=a)P(A=a)   理解:a可以代表各种能导致B发生的C,D,E,F...事件。


什么是数据科学(Data Science)?

构造分析利用数据的模型,从各式各样数据中抽丝剥茧,提取出有价值的信息,通过机器学习,做出最优化的结论。

数据科学家可以通过对数据的分析建模,最终达到两种结果,一种是建立预测模型,对未来进行预测。一种是统计数据,分析数据得出结论并报告。


什么是机器学习?

机器学习就是着手于现有收据,学习造成现有结果的机制和学习能够解释它们的模型。核心:Learning Concepts and Building Models.

一些术语:

what(is being learned): parameters ,structure ,hidden concepts

what from: supervised , unsupervised , reinforcement

what for:prediction, diagnose, summarization。。。

how: passive ,active,online,offline

outputs:classification,regression

details:generative,discriminative


机器学习分类:

监督学习(Supervised  Learning):函数逼近(Function Approximation),从已经有了标签的数据中获取信息来标记新的数据。归纳(Induction)的过程(Find the rule)

非监督学习(Unsupervised Learning):精炼描述(Concise Description),没有任何标签,没有什么指示,与监督学习的关系可以理解为通过非监督学习得出一些总结性结论,这些结论作为监督学习的输入,从而达到对新的数据进行标记的效果。

增强学习(Reinforcement Learning):Learning from delayed reward。从结果得知好坏,从而反推过程中哪一步是关键的,做出优化。而在过程中是不知道对错或关键步骤的,直到结果已经出现,好坏已经定性。


归纳(Induction),演绎(Deduction),溯源(Abduction):


归纳是从Cause到Effect的过程中去寻找隐藏的Rule。

演绎是依照Rule而从Cause推理出Effect。

溯源是拿着Effect按照Rule来溯源可能造成Effect的Cause。

只有演绎是一个结果确定的过程。


分类(Classification)和回归(Regression):

分类:y  {0,1}或者更多选择

回归:y ∈[0,1]或者∈R

奥卡姆剃刀(Occam’s Razor)原则:当其他条件都一样是,选择复杂性较低的那个。

拟合误差和复杂度的关系如图:


理想状况是复杂度越高,拟合误差越小,实际情况下,对未知数据的泛化误差曲线是过度拟合误差和训练数据误差之和。

所以最理想的复杂度是在泛化误差最小处。过度拟合是导致偏差的主要来源。如果结果不理想的情况下,可以尝试适当降低复杂度以提高拟合度。



机器学习数学篇--线性代数

嗑就不唠了,直接上内容,可以参考之前的文章:https://xiaozhuanlan.com/topic/2981350467目录线性代数:标量向量矩阵张量集合范数内积向量正交1.标量单独的数 b 构...
  • sqc3375177
  • sqc3375177
  • 2018年01月18日 19:55
  • 39

机器学习基础知识整理

1.过拟合   容易产生过拟合的原因:    (1)在对模型进行训练时,有可能遇到训练数据不够,即训练数据无法对整个数据的分布进行估计的时候;   (2)或者在对模型进行过度训练(overtraini...
  • l1l2l3q1q2q3
  • l1l2l3q1q2q3
  • 2017年04月24日 22:11
  • 214

机器学习之(八)统计学基本知识

本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去,时间...
  • boon_228
  • boon_228
  • 2016年10月28日 17:34
  • 1150

机器学习知识点(二十二)高斯分布(正态分布)基础知识

1、概念 正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大...
  • fjssharpsword
  • fjssharpsword
  • 2017年04月27日 17:45
  • 2571

干货丨从基础知识到实际应用,一文了解「机器学习非凸优化技术」

文章来源:机器之心优化作为一种研究领域在科技中有很多应用。随着数字计算机的发展和算力的大幅增长,优化对生活的影响也越来越大。今天,小到航班表大到医疗、物理、人工智能的发展,都依赖优化技术的进步。在这段...
  • R1uNW1W
  • R1uNW1W
  • 2018年01月08日 00:00
  • 212

机器学习笔记 - 贝叶斯决策论

贝叶斯定理条件概率条件概率是指两个事件AA和BB, AA已经发生的条件下, BB发生的概率, 记为 P(B|A)P(B|A), 显然: P(B|A)=P(AB)P(A) P(B|A) = \fr...
  • volvet
  • volvet
  • 2017年03月05日 13:12
  • 496

机器学习基础知识(二)

1 高斯分布对于⼀元实值变量x,⾼斯分布被定义为: 它由两个参数控制:µ,被叫做均值(mean),以及σ2,被叫做方(variance)。⽅差的平⽅根,由σ给定,被叫做标准差(standard de...
  • weixin_36541072
  • weixin_36541072
  • 2016年12月13日 17:28
  • 470

机器学习入门好文,强烈推荐

转自 飞鸟各投林 史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷 让我们从机器学习谈起 导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让...
  • ritterliu
  • ritterliu
  • 2017年02月01日 23:44
  • 61624

从零开始掌握Python机器学习:十四步教程

Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0 到 1 掌握 Python 机器学习,...
  • liuyuehui110
  • liuyuehui110
  • 2017年07月21日 22:32
  • 1178

机器学习所需要的数学基础知识---矩阵(1)

机器学习数学基础知识—矩阵(1)本系列文章为本人在学习机器学习过程中遇到的数学知识的总结,数学公式使用Lextex编辑,原文博客http://blog.csdn.net/rosetta A∈Rm∗nA...
  • rosetta
  • rosetta
  • 2017年06月25日 13:55
  • 692
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习基础知识
举报原因:
原因补充:

(最多只允许输入30个字)