数据挖掘之朴素贝叶斯

本文主要介绍了朴素贝叶斯算法的基础知识,包括贝叶斯决策论的概念,如先验概率、条件概率和后验概率,以及朴素贝叶斯的工作流程和优缺点。文中详细解释了如何理解朴素贝叶斯中的“朴素”概念,以及拉普拉斯平滑法的作用。此外,还探讨了朴素贝叶斯在实际应用中的场景,如文档分类、垃圾邮件过滤和情感分析,以及它为何对异常值不敏感和作为低方差模型的特性。
摘要由CSDN通过智能技术生成

上篇内容:数据挖掘面试之SVM

0x00 前言

我们知道,概率模型的训练过程其实就是求参数估计的过程。贝叶斯学派认为参数是随机变量,其本身也可以有分布,我们可以通过假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。而在许多招聘数据挖掘工程师岗位的要求中,熟悉贝叶斯算法算是基础的要求了。本篇文章主要是讲在面试中可能会遇到的贝叶斯算法中的朴素贝叶斯问题。

0x01 贝叶斯准备知识
问题:什么是贝叶斯决策论?

回答:贝叶斯决策论是概率框架下实施决策的基本方法。要了解贝叶斯决策论,首先得先了解以下几个概念:先验概率、条件概率、后验概率、误判损失、条件风险、贝叶斯判别准则。概念似乎有点多,别急,下面我们一个个来进行讨论。

先验概率: 所谓先验概率,就是根据以往的经验或者现有数据的分析所得到的概率。如,随机扔一枚硬币,则p(正面) = p(反面) = 1/2,这是我们根据已知的知识所知道的信息,即p(正面) = 1/2为先验概率。

条件概率: 所谓条件概率是指事件A在另一事件B发生的条件下发送的概率。用数学符号表示为: P(B|A),即B在A发生的条件下发生的概率。 举个栗子,你早上误喝了一瓶过期了的牛奶(A),那我们来算一下你今天拉肚子的概率(B),这个就叫做条件概率。即P(拉肚子|喝了过期牛奶), 易见,条件概率是有因求果(知道原因推测结果)。

后验概率: 后验概率跟条件概率的表达形式有点相似。数学表达式为p(A|B), 即A在B发生的条件下发生的概率。以误喝牛奶的例子为例,现在知道了你今天拉肚子了(B),算一下你早上误喝了一瓶过期了的牛奶(A)的概率, 即P(A|B),这就是后验概率,后验概率是有果求因(知道结果推出原因)

误判损失:
数学表达式:L(j|i),
判别损失表示把一个标记为i类的样本误分类为j类所造成的损失。
比如,当你去参加体检时,明明你各项指标都是正常的,但是医生却把你分为癌症病人,这就造成了误判损失,用数学表示为:L(癌症|正常)。

条件风险: 是指基于后验概率P(i|x)可获得将样本x分类为i所产生的期望损失,公式为:R(i|x) = ∑L(i|j)P(j|x)。(其实就是所有判别损失的加权和,而这个权就是样本判为

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值