看了下贝叶斯分类器,写个小总结吧!
前言
贝叶斯在文本分类中的应用:垃圾邮件分类;新闻报道分类;情感极性分类
一、先验概率
先验概率反应我们在实际观察中对某种症状的预测。记作p(yi)
决策规则是基于输入采取的特定行动。(基于先验的决策是有效但是灵活性,准确性还是有局限性。给出的是同样的预测,没有考虑到个体;先验概率均匀也效果不佳)
二、后验概率
1.引入特征
特征:观测变量
特征空间:进行观测值采样的空间
2.后验概率
后验概率:给定观测向量x,某个特定类别的概率P(y/x)
贝叶斯定理:
我们希望最大后验概率(MAP)的类别作为预测结果y=argmacP(yi/x)*
三、风险
可以打球,那么可以打球就是我们的风险。意思就是决策为一个,则另外的一个较小的就是我们的犯错。
犯错之后我们会带来损失
不同的错误带来的损失可能不同,记作人ij。
条件风险
每个样本最佳,是贝叶斯分类的最佳。
四、朴素贝叶斯
关键是做了一个条件独立性假设
实际上做的只对分子做评估就可以了。
先验概率实际上就是ck类别的占比除以总的样本个数N
条件概率实际上就是类别为ck的情况下,x的取值为 某个数的次数除以总的为ck的次数。
参数估计
1.学习;计算先验概率和条件概率
2.测试;算先验概率的最大概率的似然估计
3.确定x的类别;算最优分类,作为y的取值
五、平滑
使得概率不为零,而是一个极小的值。每个
Sj就是说在第J个维度上特征的可能取值个数。
K是类别的个数。(yes no这种类别)
连续特征采用统计看他是符合某种分布的,然后也可以计算。
在进行文本分类时我们首先应该去除停用词和词干提取停用词(携带信息量极为少)词干提取(对词语去除词缀,从而得到词干的过程)对于分类器而言,需要找出积极与消极那个标签的概率更大,所以可以去除相同的除数,即比较两者的分子。
参考:b站up:山he大海