贝叶斯分类器

贝叶斯分类器

Category: 机器学习听课笔记
Last Edited: Oct 10, 2018 9:43 PM
Tags: 听课笔记,机器学习
注:本文非完全原创,很多公式和例子借鉴于各位前辈。

先导知识

1072375-20181011101243179-1897302434.png

  1. 贝叶斯决策论:贝叶斯决策论考虑如何基于已知的概率和误判损失来选择最优的类别标记。
  2. 先验概率(prior probability):是指根据以往经验和分析得到的概率。即没有考虑原因,在获得数据和依据之前就对概率进行了猜测,得到了概率。
  3. 似然函数(likelihood function):似然用来描述已知随机变量输出结果时,未知参数的可能取值。似然函数关注的是由已知的结果和某固有属性的关系,而不是结果或者原因的概率,所以称似然是对固有属性的拟合,所以不能称之为概率。
  4. 后验概率(Posterior probability):是在相关证据或者背景给定并纳入考虑之后的条件概率。是由因及果的概率。
  5. 先验分布:根据一般的经验认为随机变量应该满足的分布

    后验分布:通过当前训练数据修正的随机变量的分布,比先验分布更符合当前数据

    似然估计:已知训练数据,给定了模型,通过让似然性极大化估计模型参数的一种方法

    后验分布往往是基于先验分布和极大似然估计计算出来的。

  6. 先验、似然、后验的区分总结:

    1)先验——根据若干年的统计(经验)或者气候(常识),某地方下雨的概率;

    2)似然——下雨(果)的时候有乌云(因/证据/观察的数据)的概率,即已经有了果,对证据发生的可能性描述;

    3)后验——根据天上有乌云(原因或者证据/观察数据),下雨(结果)的概率;

    后验 ~ 先验*似然 : 存在下雨的可能(先验),下雨之前会有乌云(似然)~ 通过现在有乌云推断下雨概率(后验);

    或者:

    设定背景:酒至半酣,忽阴云漠漠,骤雨将至。

    情景一:“天不会下雨的,历史上这里下雨的概率是20%”----先验概率“但阴云漠漠时,下雨的概率是80%”----后验概率

    情景二:“飞飞别急着走啊,历史上酒桌上死人的概率只有5%“----先验概率”可他是曹操啊,梦里都杀人“----后验概率

  7. 最大似然估计(Maximum Likelihood Estimation):最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推有可能导致这样结果的模型参数值。
  8. 贝叶斯公式:
    1.   在通常情况下,“事件A在事件B发生的条件下的概率”与“事件B在事件A发生的条件下的概率”是不一样的,但两者的关系是确定的,贝叶斯公式研究的就是这种关系。
    2. 公式:

      1072375-20181011101346472-303436939.png

    3. 解释:
      1. P(A|B)为后验概率,即指事件B发生的条件下事件A发生的概率,因为该概率得自于B的取值而称为A的后验概率。
      2. P(A)为先验概率(边缘概率),即A的发生不用考虑B的任何方面的因素。
      3. P(B|A)为条件概率(类条件概率密度),即指在事件A发生的条件下事件B发生的概率,和1一样被称为B的后验概率。—>称为似然
      4. P(B)为”用于归一化的证据因子(evidence)“可以当成一个已知的量,在贝叶斯分类器种P(B)的值与分类无关。
  9. 正态分布(高斯分布):

    1072375-20181011101431939-1715333180.png
    1072375-20181011101452175-1935332296.png
  10. 多源正态分布:
    1. 个人理解:将二分类的高斯分布扩展为多个分类的问题。定义详见:https://www.cnblogs.com/bingjianing/p/9117330.html
    2. 包含了标准化、归化等过程。

1072375-20181011101537128-1349869931.png
左图为多源高斯分布示意 右图为多远高斯分布的归化过程
---

(以上为先导概率论知识)

贝叶斯分类器

  1. 贝叶斯决策论:
    1. 前提:所有相关概率已知
    2. 关注点:误判损失
  2. 期望损失(风险):在N种可能的标记种,λij是指将Cj误分为Ci时所产生的损失。基于后验概率:P(ci|x)得到误分为Ci时所产生的期望损失,这个损失也叫做”风险“,当我们制定一个准则h使得对于每一个样本x风险最小时(此时整个样本的总体风险R(h*)贝叶斯风险)也达到最小),称h贝叶斯最优分类器

    1072375-20181011101900767-245164182.png

    期望损失(风险)表达式

    1072375-20181011101914832-1478083954.png

    总体风险表达式

    1072375-20181011101931402-1052427712.png

    使每个样本的风险最小

  3. 后验概率最大化与风险最小化:对于二分类问题,λ要么等于0要么等于1

    1072375-20181011102015144-2112395833.png

    • 此时所以条件风险(该条件下的风险)为

      1072375-20181011102028075-755415018.png

    • 所以当分类错误率达到最小时,需要后验概率P最小,继而使后验概率最大化就是使风险最小化。即:

      1072375-20181011102038464-1121423036.png

  4. 由3和贝叶斯公式得到,想获得最小风险需要获得最大的后验概率,想获得最大的后验概率需要获得最大的似然。以此引导出——>最大似然估计。

最大似然估计(Maximum Likelihood Estimation)

  1. 首先,我们的目标是:P(x|c)这一似然概率,根据频率学派的观点:

    参数虽然未知,当存在客观的固定值。

    我们假设似然概率被一个确定的θc控制,你那么我们的目标就是通过训练集来确定θ c的值,从而确定似然概率的值。

  2. 假设Dc表示训练集D上的第c类样本的集合,他们满足条件:样本服从独立分布,则参数θc对于数据集Dc的似然可以表示为:

    1072375-20181011102058850-1920005322.png

    形如:P(A|B)=P(AB)/P(B)

        两边取对数(对数似然):

    1072375-20181011102108815-781491134.png

    此时,θc最大时的最大似然估计表达式为:

    1072375-20181011102116915-1011868813.png

    不足:该方法严重依赖假设:存在客观的固定值。

  3. MLE估计结果的有偏和无偏性:
    1. 对于均值:无偏
    2. 对于反差:有偏,1/n要改为1/(n-1)
  4. 最大似然估计在样本不足的情况下会出现一个问题:假设我抛10次硬币,有7次是正面朝上,那么我的最大似然估计的概率就是0.7,但是根据常识我们的概率应该靠近0.5才对,这里就需要考虑先验概率。——>引出最大后验概率估计。

最大后验概率(Maximum a posteriori estimation)

  1. MAP和MLE的区别:最大似然估计是求参数θ, 使似然函数P(x|θ)最大。最大后验概率估计则是想求θ使P(x|θ)P(θ)最大。求得的θ不单单让似然函数大,θ自己出现的先验概率也得大。
  2. MAP的基本思想仍然是基于贝叶斯公式本身,MLE的目的是求出最大的似然估计值,而MAP的目的是求出最大的后验概率本身,在MLE的基础上加上了一个先验概率,他的表达式为:

    1072375-20181011102140409-580504590.png

  3. 主要区别在于贝叶斯学派和频率学派的区别。

朴素贝叶斯分类器

  1. 引导:
    1. 如果有d个样本,每个样本有2种状态0或1,维度为k????,那么他们的组合有2^dk-1种,但是当所有条件独立时,他们的结果有(2-1)dk-1种,使得参数大大减少。
    2. 所以,在该条件成立之上的朴素贝叶斯之所以叫做”朴素“是因为他需要满足”所有条件独立“这个条件。
  2. 朴素贝叶斯分类器所依赖的概率模型就是MAP和MLE。
  3. 应用:文本分类/垃圾邮件筛选等。

判别函数和决策边界(待补)

PAC Learning(待补)

转载于:https://www.cnblogs.com/NewBee-CHH/p/9770914.html

注:此为旧版,我另上传有最新版,见http://download.csdn.net/source/1802967。 功能强大的JavaScript日历控件 最关键的,无偿的永久的提供给大家免费使用,含全部源代码。 功能简介: 一、更人性化,更全面的功能 大部分日期控件都具备这些功能,但是本日历控件做的更全面,更人性化,并且速度一流. 支持多种调用模式 除支持常规在input单击调用外,还支持使用其他的元素如:<img><div>触发WdatePicker函数来调用弹出日期框 支持周显示 可以通过配置isShowWeek属性决定是否限制周,并且在返回日期的时候还可以通过自带的自定义事件和API函数返回选择的周 只读开关,高亮周末功能 设置readOnly属性 true 或 false 可指定日期框是否只读;设置highLineWeekDay属性 ture 或 false 可指定是否高亮周末 操作按钮自定义 清空按钮和今天按钮,可以根据需要进行自定义,它们分别对应 isShowClear 和 isShowToday 默认值都是true 支持多种容 除了可以将值返回给input以外,还可以通过配置el属性将值返回给其他的元素(如:textarea,div,span)等,带有innerHTML属性的HTML元素 起始日期功能 有时在项目中需要选择生日之类的日期,而默认点开始日期都是当前日期,导致年份选择非常麻烦,你可以通过起始日期功能加上配置alwaysUseStartDate属性轻松解决此类问题 自定义格式(注意大小写) yMdHmswW分别代表年月日时分秒星期周,你可以任意组合这些元素来自定义你个性化的日期格式. 如:"yyyy年M月d日 HH时mm分" 返回:"2008年3月12日 19时20分" 编辑功能 不知道您是否已经注意到,当日期框里面有值时,右下角的按钮会变成更新,修改完某个属性后,只要点击这个按钮就可以实现时间和日期的编辑 下拉,输入,导航选择日期 年月时分秒输入框都具备以下3个属性:通过导航图标选择,直接使用键盘输入数字,直接从弹出的下拉框中选择.因此不管你选择什么样的日期和时间都可以找到一种最快捷的方法,用最少的鼠标点击来搞定 自动纠错功能 纠错处理可设置为3种模式 1.提示 2.自动纠错(默认) 3.标记 当日期框中的值不符合格式时,系统会尝试自动修复,如果修复失败会根据您设置的纠错处理模式进行处理,错误判断功能非常智能它可以保证用户输入的值是一个合法的值 为编程带来方便 如果el的值是this,可省略,即所有的el:this都可以不写 日期框设置为disabled时,禁止更改日期(不弹出选择框) 如果没有定义onpicked事件,自动触发文本框的onchange事件 如果没有定义oncleared事件,清空时,自动触发onchange事件 其他属性设置 readOnly属性,可指定日期框是否只读 设置highLineWeekDay属性,可指定是否高亮周末 设置isShowOthers属性,可指定是否显示其他月的日期 加上class="Wdate"就会在选择框右边出现日期图标 二、强大的日期范围限制功能 支持静态限制,动态限制,脚本自定义限制,以及无效天和无效日期功能,利用这样功能你可以任意定制不能选择的日期,这些日期即使毫无规律,毫无连续性,你也可以通过这些功能的组合使用轻松搞定. 静态限制 你可以给通过配置minDate(最小日期),maxDate(最大日期)为静态日期值,来限定日期的范围 无效天可以使用此功能禁用周日至周六所对应的日期,相关属性:disabledDays (0至6 分别代表 周日至周六) 动态限制 你可以通过系统给出的动态变量,如%y(当前年),%M(当前月)等来限度日期范围,你还可以通过#{}进行表达式运算,如:#{%d+1}:表示明天 无效日期可以使用此功能禁用,所指定的一个或多个日期,只要你熟悉正则表达式,你可以尽情发挥 脚本自定义限制 系统提供了$dp.$D和$dp.$DV这两个API来辅助你进行日期运算,此外你还可以通过在 #F{} 中填入你自定义的脚本,做任何你想做的日期限制 三、自定义事件和丰富的API库 如果你需要做一些附加的操作,你也不必担心,日期控件自带的自定义事件可以满足你的需求.此外,你还可以在自定义事件中调用提供的API库来做更多的运算和扩展,绝对可以通过很少的代码满足你及其个性化的需求. 四、多语言支持和自定义皮肤支持 通过lang属性,可以为每个日期控件单独配置语言,当然也可以通过WdatePicker.js配置全局的语言,皮肤也是一样,只要配置skin属性即可.这样一个页面中可以显示
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值