基础概念
一、相对熵
相对熵,又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等。
设p(x),q(x)是X中取值的两个概率分布, 则p对q的相对熵是:
- 相对熵可以度量两个随机变量的“距离”;
- 一般情况下p对q的相对熵不等于q对p的相对熵;
- p对q的相对熵大于等于0
二、互信息
两个随机变量X,Y的互信息定义为X,Y的联合分布和独立分布乘积的相对熵。
三、信息增益
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(DIA)之差,即:
显然,这即为训练数据集D和特征A的互信息。
四、概率公式
1、条件概率:
2、全概率公式:
3、贝叶斯公式:
概率图模型
概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。
对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决了问题。
概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中有向边表示单向的依赖,无向边表示相互依赖关系。
概率图模型分为贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network)两大类。贝叶斯网络可以用一个有向图结构表示,马尔可夫网络可以表 示成一个无向图的网络结构。更详细地说,概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,在机器学习的诸多场景中都有着广泛的应用。
朴素贝叶斯
朴素贝叶斯(Naive Bayesian)是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。
朴素贝叶斯可以看做是贝叶斯网络的特殊情况:即该网络中无边,各个节点都是独立的。
朴素贝叶斯的两个假设:
- 一个特征出现的概率与其他特征(条件)独立;
- 每个特征同等重要。
贝叶斯公式:
朴素贝叶斯法对条件概率分布做了条件独立性的假设,由于这是一个较强的假设,朴素贝叶斯也由此得名!这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
朴素贝叶斯优点:
- 算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化即可)
- 分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储)
朴素贝叶斯缺点:
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
朴素贝叶斯模型(Naive Bayesian Model)的朴素(Naive)的含义是"很简单很天真"地假设样本特征彼此独立. 这个假设现实中基本上不存在, 但特征相关性很小的实际情况还是很多的, 所以这个模型仍然能够工作得很好。
贝叶斯网络
一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量,是具有因果关系(或非条件独立)。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)",另一个是“果(children)",两节点就会产生一个条件概率值。
每个结点在给定其直接前驱时,条件独立于其非后继。
一个简单的贝叶斯网络
贝叶斯网络的3种结构形式:
D-Separation:是一种用来判断变量是否条件独立的图形化方法。即对于一个有向无环图,D-Separation方法可以快速的判断出两个节点之间是否是条件独立的。
形式1:head-to-head
在c未知的条件下,a、b被阻断(blocked),是独立的,称之为head-to-head条件独立。
形式2:tail-to-tail
在c给定的条件下,a,b被阻断(blocked),是独立的,称之为tail-to-tail条件独立。
形式3:head-to-tail
在c给定的条件下,a、b被阻断(blocked),是独立的,称之为head-to-tail条件独立。
当前状态只跟上一状态有关,跟上上或上上之前的状态无关。这种顺次演变的随机过程,就叫做马尔科夫链(Markov chain)。
有向图、无向图、条件随机场:
1.有向图模型(Directed Graphical Models, DGM),又称作贝叶斯网络:
2. 无向图模型(UndirectedGraphical Models, UGM), 又被称为马尔科夫随机场或者马尔科夫网络:
3. 设X=(X1,X2…Xn)和Y=(Y1,Y2…Ym)都是联合随机变量,若随机变量Y构成一个无向图 G=(V,E)表示的马尔科夫随机场(MRF),则条件概率分布P(Y|X)称为条件随机场(Conditional Random Field, CRF)。如下图所示为一个线性链条件随机场的无向图模型:
边缘分布:多维随机变量中,只包含其中部分变量的概率分布。