第四周:机器学习(贝叶斯专题)

目录

摘要

Abstract

一、理论简介

1、贝叶斯定理的数学基础 

2、贝叶斯定理的推理过程  

二、分类

1、朴素贝叶斯

2、贝叶斯网络 

三、总结

参考文章 


摘要

前两周通过机器学习的两大任务:回归与分类,提出了概率生成模型,该模型可以与贝叶斯概率模型结合来解决分类问题。为了更加深入贝叶斯理论的学习,本周以贝叶斯理论的数学基础和公式推导为切入,进一步将贝叶斯理论融入实际案例。以经典数据集为例,逐步推导了朴素贝叶斯在案例中的实现过程;发现朴素贝叶斯的不足后,对贝叶斯网络进行了初步的了解。 

Abstract

The previous two weeks presented a probabilistic generative model through the two main tasks of machine learning: regression and classification, which can be combined with a Bayesian probabilistic model to solve classification problems. In order to go deeper into the learning of Bayesian theory, this week takes the mathematical foundation and formula derivation of Bayesian theory as an entry point to further integrate Bayesian theory into real cases. Taking the classical dataset as an example, the implementation process of plain Bayes in the case was gradually deduced; after discovering the shortcomings of plain Bayes, a preliminary understanding of Bayesian networks was provided.

一、理论简介

1、贝叶斯定理的数学基础 

贝叶斯定理:就是将“主观概率”加入到分类预测中,在已知某种有用信息的情况下的概率预测,而不是单纯的由大量数据推测的先验概率。 (当分析样本数接近总体数时,样本中事件发生的概率接近于总体中时间发生的概率)

公式如下图:

上图中未知信息是x,需要预测的该类别是c。我们起初由主观经验设定类先验概率是P(c),在该类别下未知信息的似然是P(x|c),由贝叶斯公式可以得到在该信息已知的情况下的类别判定的类后验概率P(c|x)。 

类先验概率(主观概率):根据以往的经验、实验、实证推测出的概率(获得某项信息之前),其中的信息是指一些附加条件(如果没有经验,那么可以主观设定先验概率的值)

类后验概率(贝叶斯逆概率):在得到一种信息的条件下,计算出来的条件概率 

似然函数: 概率是已知参数的随机变量的输出结果,似然是未知参数的随机变量的输出结果。其中\thetaP(\theta |x)的未知参数,也就是贝叶斯中的未知选取信息。

贝叶斯更新:先验概率计算出来的数值更新为后验概率计算出来的数值

2、贝叶斯定理的推理过程  

二、分类

1、朴素贝叶斯

朴素贝叶斯:就是贝叶斯理论的简化算法,假设各个属性特征相互独立,不存在不同属性的决策大小之分,其各属性特征所占比重相同。

案例分析(周志华西瓜书): 

通过上述数据集,判断下列条件下的瓜是否为好瓜:

在计算条件概率的时候,需要注意的是给定的属性特征是否为离散或连续变量,在处理的时候有所不同。如上述例子中,色泽等前6个属性是离散变量(有限个结果),密度和含糖率是连续变量(在固定区间内的任意值)。离散变量直接根据数据集中的离散分布直接统计计算即可,连续变量需要计算均值、方差带入正态分布中即可估计出来。

在上述朴素贝叶斯的第三步(计算类后验概率) ,其中朴素贝叶斯是在贝叶斯基础上做了简化,实现了连乘的函数h(x),其推导过程如上图红框所示。

2、贝叶斯网络 

在朴素贝叶斯中,假设其所有特征信息相互独立,即一个特征的出现不受其他特征的影响。但是,一般情况下,特征之间都是相互牵连的,所以提出了贝叶斯网络来处理这种不独立的问题。

 贝叶斯网络(Bayesian network):又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型。它是一种模拟人类推理过程中因果关系的不确定性处理模型。

贝叶斯网络有以下三种基本的因果推理关系: 

 第一种head-to-head关系中,可以看出a、b相互独立;而在第二、三种tail-to-tail和head-to-tail关系中,要分为两种情况讨论(是否c是已知的)。

三、总结

本周对贝叶斯理论进行了比较深入的了解,结合实际案例进行手动模拟推算朴素贝叶斯。为了考虑到更加复杂的实际情况,又找了相关文章来解决该问题——建立贝叶斯网络。下周会将贝叶斯理论结合于代码实践,比如用numpy、sklearn实现朴素贝叶斯,用pgmpy来实现贝叶斯网络。

参考文章 

1、浅谈贝叶斯统计 (scau.edu.cn) 

2、超详细讲解贝叶斯网络(Bayesian network) - USTC丶ZCC - 博客园 (cnblogs.com)

3、贝叶斯法则 - MBA智库百科 (mbalib.com) 

  • 6
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值