贝叶斯过滤器理解及反黄牛应用

一 理论

  概率论:从特殊推论一般、从样本推论全体。

很多专业的文章一开始就贴出公式,看了就头大。我就从一个小白的角度,来理解下贝叶斯过滤器的理论及应用。

  应该是中学数学内容:

条件概率公式:事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A。

所以有:

换个写法:

贝叶斯定理(Bayes’s Rule):如果有k个相互独立事件 A1,A2···,Ak 并且,P (A1) + P(A2) + ... + p(Ak)= 1 和一个可以观测到的事件 B,那么有:

u=239894515,405307697&fm=58.jpeg

P(A)为先验概率,即在观察事件B之前得到的事件A的假设概率
P(A|B) 为后验概率,即在观察事件B后得到新数据后计算该假设A的概率
P(B|A)为似然度,即在该假设A下得到这一观察数据 B 的概率
P(B)为标准化常量,即在任何假设下得到这一观察数据 B 的概率

换个理解方式:

将公式写作下面这种形式:P(A|B)= P(A)*\frac{P(B|A))}{P(B)}  ,\frac{P(B|A))}{P(B)}称  为调整因子,

可写作:P(A|B)= P(A)*调整因子

若调整因子>1,  P(A|B)> P(A),说明B提供的信息使得先验概率增强;

若调整因子=1, P(A|B)= P(A) ,说明B提供的信息对于A没有帮助;

若调整因子<1,  P(A|B)< P(A) ,说明B提供的信息使得先验概率减弱。

贝叶斯推断:建立在主观推断的基础上,可以不需要客观证据,先估计一个值,然后根据实际不断修正。

什么是先验概率和后验概率

    先验概率是根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因”。后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计.

   条件概率是频率统计思维,通过已知的信息去计算事件出现概率,我们称之为正向概率;贝叶斯公式反其道而行之,通过实验结果去反推出现实验结果的原因,我们称之为逆概率。

  经典例子: 黑白球摸球问题。

下面例子来自知乎:

举个例子,有两个碗,分别称为1号、2号,1号碗里有水果糖30颗,巧克力糖10颗,2号碗里有水果糖20颗,巧克力糖20颗。伸手抓一颗糖是水果糖,问是从1号碗拿到的概率是多少?

我们假设两个碗大小形状相同、摆放位置相同,也就是你从1号碗和2号碗抓糖的概率一样,都是0.5

 

为什么朴素贝叶斯如此“朴素”
因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知,这个假设在现实世界中是很不真实的,因此,说朴素贝叶斯真的很“朴素”。

朴素贝叶斯模型(Naive Bayesian Model)的朴素(Naive)的含义是“很简单很天真”地假设样本特征彼此独立,这个假设现实中基本不存在,但特征相关性很小的实际情况还是很多的,所以这个模型仍能够工作得很好。

什么是贝叶斯决策理论
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率作出最优决策(选择概率最大的类别)。

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:

已知类条件概率密度参数表达式和先验概率。
利用贝叶斯公式转换成后验概率。
根据后验概率大小进行决策分类。
朴素贝叶斯算法的前提假设
特征之间相互独立
每个特征同等重要

朴素贝叶斯有哪几种常用的分类模型
朴素贝叶斯的三个常用模型:高斯、多项式、伯努利。

高斯模型主要处理包含连续型变量的数据,使用高斯分布概率密度来计算类的条件概率密度。适用于特征满足正态分布的情况,如果不是,可以想办法转换称正态分布(抽样,或者增大数据量,或者转换计算域ln y,  ,  都是常用的转换形式)

多项式模型:用于离散值模型的处理网上有公式(比如文本分类问题里面,不光看词语是否在文本中出现,也得看出现的次数,如果总词数为n,出现词数为m的话,说起来有点像掷骰子n次出现m次这个词的场景。)

伯努利模型:适合二项分布,伯努利模型特征的取值为布尔型,即出现为true没有出现为false,(在文本分类中,就是一个单词有没有在一个文档中出现不关心次数)。

二  应用

   上面的偏学术,现实世界中,我们往往能观察到大量的现象,我们更加关心现象背后的原因。比如一段文本出现大量的特征,我们会去判断是不是垃圾邮件;这也是网上最常见贝叶斯过滤器的应用。还有就是推荐系统。

常见的工作流程:

准备阶段。确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本。
训练阶段。计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计。
应用阶段。使用分类器进行分类,输入是分类器和待分类样本,输出是样本属于的分类类别。
 

  这里简单说一下再反黄牛的:

   定义恶意事件,这里就是为了影响调整因子。根据贝叶斯理论,在系统的初始阶段,我们把先验概率P(s), 可设置为 0.5。

P(S|K): 在事件 K 发生的前提下用户是恶意用户的概率,这个可以借助于恶意事件(频繁的挂号退号)来不断的修正,达到一定的阈值。就认为是恶意用户。其中的样本集需要借助于提前收集的恶意用户库。

公式= (恶意用户出现恶意事件的概率* 恶意用户的概率)/(恶意用户出现恶意事件的概率* 恶意用户的概率)+(正常用户出现恶意事件的概率*正常用户的概率)

 

 

 

 

参考:

https://blog.csdn.net/qq_32742009/article/details/82017344

https://zhuanlan.zhihu.com/p/41839198

公众号:架构之美

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值