机器学习基础知识

最新推荐文章于 2022-08-06 23:37:51 发布

kelexinchina

最新推荐文章于 2022-08-06 23:37:51 发布

阅读量237

点赞数

分类专栏：大数据学习之路

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kelexinchina/article/details/51559545

版权

大数据学习之路专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Machine Learning的主要两个应用方面：人工智能、数据科学。

什么是人工智能（Artificial Intelligence）？

AI是不确定性管理（Uncertainty Management）的体现

AI = What to do when you don't know what to do

不确定性可能由以下原因造成：

传感器的局限性（Sensor Limits）--- 无法给出足够的信息来感知周围环境

敌手（Adversaries）---故意做出某种行为来加大AI对事件判断的误差

随机环境（Stochastic Environments）--无法预测结果的环境因素

延迟（Laziness）---即使知道怎么算，也无法及时算出结果

无知（Ignorance）---对所发生的事情无权不知道，也许可以知道，但是不屑于知道

基于知识的AI的三个基本过程（Foundamental Processes）：分别是Reasoning（理解，决策，行动等），Learning（从结果的正确与否进行学习），Memory（存储学习的结果，为Learning和Reasoning提供数据参考）,这三个过程构成了AI Agent体系结构的一部分，称之为Deliberation。

AI Agent体系架构：

AI的四个学派，如图的四个象限：

贝叶斯规则：

P(A|B) = P(B|A)*P(A)/P(B)

其中，P(B|A)为似然概率，P(A)为先验概率，P(B)为边缘似然概率。P(A|B)为后验概率。B可以理解为evidence，而A可以理解为cause，P(A|B)则类似于根据结果溯源。

根据零容忍度原理，P(B)可以展开为P(B) = ∑a P(B|A=a)P(A=a) 理解：a可以代表各种能导致B发生的C,D,E,F...事件。

什么是数据科学（Data Science）？

构造分析利用数据的模型，从各式各样数据中抽丝剥茧，提取出有价值的信息，通过机器学习，做出最优化的结论。

数据科学家可以通过对数据的分析建模，最终达到两种结果，一种是建立预测模型，对未来进行预测。一种是统计数据，分析数据得出结论并报告。

什么是机器学习？

机器学习就是着手于现有收据，学习造成现有结果的机制和学习能够解释它们的模型。核心：Learning Concepts and Building Models.

一些术语：

what（is being learned）: parameters ,structure ,hidden concepts

what from: supervised , unsupervised , reinforcement

what for：prediction， diagnose， summarization。。。

how： passive ，active，online，offline

outputs：classification，regression

details：generative，discriminative

机器学习分类：

监督学习（Supervised Learning）：函数逼近（Function Approximation），从已经有了标签的数据中获取信息来标记新的数据。归纳(Induction)的过程（Find the rule）

非监督学习（Unsupervised Learning）：精炼描述（Concise Description），没有任何标签，没有什么指示，与监督学习的关系可以理解为通过非监督学习得出一些总结性结论，这些结论作为监督学习的输入，从而达到对新的数据进行标记的效果。

增强学习（Reinforcement Learning）：Learning from delayed reward。从结果得知好坏，从而反推过程中哪一步是关键的，做出优化。而在过程中是不知道对错或关键步骤的，直到结果已经出现，好坏已经定性。

归纳（Induction），演绎（Deduction），溯源（Abduction）：

归纳是从Cause到Effect的过程中去寻找隐藏的Rule。

演绎是依照Rule而从Cause推理出Effect。

溯源是拿着Effect按照Rule来溯源可能造成Effect的Cause。

只有演绎是一个结果确定的过程。

分类（Classification）和回归（Regression）：

分类：y ∈ {0,1}或者更多选择

回归：y ∈[0,1]或者∈R

奥卡姆剃刀（Occam’s Razor）原则：当其他条件都一样是，选择复杂性较低的那个。

拟合误差和复杂度的关系如图：

理想状况是复杂度越高，拟合误差越小，实际情况下，对未知数据的泛化误差曲线是过度拟合误差和训练数据误差之和。

所以最理想的复杂度是在泛化误差最小处。过度拟合是导致偏差的主要来源。如果结果不理想的情况下，可以尝试适当降低复杂度以提高拟合度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。