1.贝叶斯--有监督学习:
p(Y|X)=p(X|Y)P(Y)/p(X)
Y==>label,X==>attribute,p(Y|X)后验概率,p(X)先验概率
贝叶斯公式+条件独立假设 = 朴素贝叶斯
2.垃圾邮件识别--使用朴素贝叶斯
p(‘垃圾文件’|‘具有某特征’)>1/2
3.分词
4.多项式模型
考虑重复词语,某概率p的n次方
5.伯努利模型
将重复词视为只出现一次
6.混合模型
统计句子概率时,不考虑重复词语的次数,统计词语时考虑统计重复次数
7.去除停用词和选择关键词(人工指定)
8.平滑技术:给未出现的词语一个估计得概率,从而相应的调低了其他出现过的词语的概率
当p=0时,赋值为一个很小的数,即拉普拉斯平滑
9.很少用匹配关键字的方法,原因是其存在缺点:准确率低,词语的不断变化
10.提高速度的tricks:
trick1:取对数(将乘法转换为加法)提高速度,也可以构建hash表
trick2:转换为权重 log(C/C非)>0即属于C
trick3:选取top-k关键词(适合篇幅变动不大的邮件)
trick4:分割样本
trick5:位置权重:根据词语出现位置,对其权重诚意一个放大系数,提高识别准确度
trick6:蜜罐
11.处理多分类问题
似然函数:p(X|Yi)
12.先验概率
最大似然法
13.如何选择依赖词的个数
能用bigram解决的绝不用trigram,n>=4的情况比较少
更大的n:对下一个词出现的约束信息更多,具有更大的辨别力;
更小的n:在训练语料库中出现的次数更多,具有更可靠的统计信息,具有更高的可靠性、实用性