自然语言处理之朴素贝叶斯小结

此篇博客为自然语言处理之朴素贝叶斯的总结
更多详细信息参考超链接内容


1.朴素贝叶斯=贝叶斯公式 + 条件独立假设

2.朴素贝叶斯的效果好,尤其是在有大量语料的情况下。

3.处理重复语句的三种方式

4.处理未在训练集中覆盖的词语——平滑技术(赋予一个小概率,从而调低整体的概率)

5.直接匹配关键词处理垃圾邮件,为何行不通。

6.实际工程中的小技巧:

  1. 取对数,把乘法变成加法.并预先把对应的概率求出来
  2. 引入正常邮件出现词语的概率,把词语概率转化为权重,P垃圾邮件中的W/P正常邮件中的W.
  3. 选取前N个关键词,需要经验
  4. 分隔样本,因为样本长度不一,前N个关键词的占比不同
  5. 给位单词所在置赋权

7.如何处理多分类问题,忽略被判断的文本的概率,即用似然函数。

8.先验概率是否准确或者相等的问题。

贝叶斯方法,需要靠谱的先验概率,否则会在,最大似然法和基本的朴素贝叶斯得出不同地结果。作者给出的建议是,在处理多份类问题时,知道先验概率具体数值且不相等的情况下,考虑删除部分数据使得鲜艳概率相等,然后用最大似然法。(为什么不考虑基础的贝叶斯方法呢?) 如果不知道先验概率,就只能按等比例抽取样本,然后按先验概率相等的情况处理。

9.朴素贝叶斯方法的常见应用:

  1. 褒贬分析
    (1)对否定句进行特别处理
    (2)最相关的情感词在片段中只出现一次,词频模型作用有限,用伯努利、多项式模型替代
    (3)考虑副词对情感的影响。(很不好,不是很好)
    难点
    情绪的含蓄表达
    欲扬先抑等转折

10.拼写纠错

  • 非词错误&真词错误
  • 真词错误比较复杂。非词错误,可以直接采用贝叶斯方法
    P(候选词i|错误词)∝P(错误词|候选词i)P(候选词i);i=1,2,3,
  • 一些小技巧:
    (1)经验发现,80%的瓶邪错误,编辑距离为1,几乎所有的拼写错误,编辑距离小于等于2.
    (2)键盘上临近按键,更容易拼写错误,可以按这个条件加权。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值