上篇内容:数据挖掘面试之SVM
0x00 前言
我们知道,概率模型的训练过程其实就是求参数估计的过程。贝叶斯学派认为参数是随机变量,其本身也可以有分布,我们可以通过假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。而在许多招聘数据挖掘工程师岗位的要求中,熟悉贝叶斯算法算是基础的要求了。本篇文章主要是讲在面试中可能会遇到的贝叶斯算法中的朴素贝叶斯问题。
0x01 贝叶斯准备知识
问题:什么是贝叶斯决策论?
回答:贝叶斯决策论是概率框架下实施决策的基本方法。要了解贝叶斯决策论,首先得先了解以下几个概念:先验概率、条件概率、后验概率、误判损失、条件风险、贝叶斯判别准则。概念似乎有点多,别急,下面我们一个个来进行讨论。
先验概率: 所谓先验概率,就是根据以往的经验或者现有数据的分析所得到的概率。如,随机扔一枚硬币,则p(正面) = p(反面) = 1/2,这是我们根据已知的知识所知道的信息,即p(正面) = 1/2为先验概率。
条件概率: 所谓条件概率是指事件A在另一事件B发生的条件下发送的概率。用数学符号表示为: P(B|A),即B在A发生的条件下发生的概率。 举个栗子,你早上误喝了一瓶过期了的牛奶(A),那我们来算一下你今天拉肚子的概率(B),这个就叫做条件概率。即P(拉肚子|喝了过期牛奶), 易见,条件概率是有因求果(知道原因推测结果)。
后验概率: 后验概率跟条件概率的表达形式有点相似。数学表达式为p(A|B), 即A在B发生的条件下发生的概率。以误喝牛奶的例子为例,现在知道了你今天拉肚子了(B),算一下你早上误喝了一瓶过期了的牛奶(A)的概率, 即P(A|B),这就是后验概率,后验概率是有果求因(知道结果推出原因)
误判损失:
数学表达式:L(j|i),
判别损失表示把一个标记为i类的样本误分类为j类所造成的损失。
比如,当你去参加体检时,明明你各项指标都是正常的,但是医生却把你分为癌症病人,这就造成了误判损失,用数学表示为:L(癌症|正常)。
条件风险: 是指基于后验概率P(i|x)可获得将样本x分类为i所产生的期望损失,公式为:R(i|x) = ∑L(i|j)P(j|x)。(其实就是所有判别损失的加权和,而这个权就是样本判为