1、机器学习
1.1、概念定义
- 计算机从数据中学习出规律和模式,重新组织已有的知识结构使之不断改善自身,以应用在新数据上做预测任务。使计算机具备和人类一样的学习能力。
- 对于某个给定的任务T,在合理的性能度量方案P的前提下,程序可以自主学习任务T的经验E,随着任务的不断进行,经验的积累会带来计算机性能的提升。
- 机器学习的对象:任务,经验,性能。
1.2、机器学习的分类
- 监督学习:如用户点击/购买预测、房价预测 -------(预测标签)
对数据集中的每个样本,使用算法进行预测
回归:预测值是连续的
分类:预测值是离散的 - 非监督学习:如邮件/新闻聚类 -------------------------(预测标签)
- 强化学习:如动态系统以及机器人控制、自动驾驶-----只关心最后的结果(预测结果)
(强化学习:行为认知启发下的机器学习分支,感知环境,做出动作,根据奖惩状态反馈做出调整和选择)
2、数学基础
2.1、微积分—夹逼准则
2.2、导数
- 导数是曲线的斜率,是曲线变化快慢的反应
- 二阶导数是斜率变化快慢的反映,表示曲线的凹凸性,二阶导数连续的曲线是光滑的
2.3、泰勒展开
2.4、方向导数
2.5、梯度
2.6、凸函数
3、概率论
3.1、古典概型
3.2、概率公式
条件概率
就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。
根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。
全概率公式
假定样本空间S,是两个事件A与A’的和。红色部分是事件A,绿色部分是事件A’,它们共同构成了样本空间S。
在这种情况下,事件B可以划分成两个部分。
这就是全概率公式。它的含义是,如果A和A’构成样本空间的一个划分,那么事件B的概率,就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。
将这个公式代入上一节的条件概率公式,就得到了条件概率的另一种写法:
贝叶斯推断
对条件概率公式进行变形,可以得到如下形式
我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。
P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。
P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。
所以,条件概率可以理解成下面的式子:
后验概率 = 先验概率 x 调整因子
这就是贝叶斯推断的含义。我们先预估一个"先验概率",然后加入实验结果,看这个实验到底是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"。
在这里,如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。
3.3、两点分布(0-1分布)(x值是离散的)
多次两点分布就叫二项分布
数学期望:是为了准确地预期某件事未来可能的发展
方差:是为了分析一组数据中的差异情况,方差越小越“整齐”
方差描述了一组数列的波动情况,如果一个数列都是1种数,如1,1,1,1,1,1 那么它的方差为0
期望其实就是一组数的平均值
协方差是建立在方差分析和回归分析基础之上的一种统计分析方法两个不同参数之间的方差就是协方差相关…
3.4、泊松分布(x值是离散的)
3.4、均匀分布(x值是连续的)
、