自然语言处理task4

最新推荐文章于 2024-10-06 23:43:09 发布

Ibelieve_it

最新推荐文章于 2024-10-06 23:43:09 发布

阅读量230

点赞数

本文链接：https://blog.csdn.net/Ibelieve_it/article/details/88369483

版权

1朴素贝叶斯

由数据学习联合概率分布 $P (X, Y)$ ，然后求出条件概率分布 $P (Y ∣ X)$ ，属于生成模型。
贝叶斯公式： $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
对于一个数据集 $T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})}$ ,其中每个 $x_{i}={x_i^1,x_i^2,...,x_i^n}$ ，即有n个特征，类标签集合 $Y={c_{1},c_{2},...,c_{k}}$ ，朴素贝叶斯的原理是：
1.根据数据集计算先验概率 $P(y=c_{k})$
2.在条件独立性假设前提下计算条件概率 $P(X=x_i|Y=c_k)=P(x_i={x_i^1,x_i^2,...,x_i^n}|y=c_{k})={\prod_{j=1}^nP(x_i^j|y=c_k})$
3.给定输入 $x$ ,根据贝叶斯公式，计算后验概率 $P(Y=c_{k}|X=x)$ ，将后验概率最大的类作为 $x$ 的类输出。

基于以上解释，我们知道（1）该算法的理论核心是贝叶斯定理；（2）它是基于条件独立性假设之上的，即假设特征之间相互独立，没有相关性，这是为什么称之为“朴素”的原因。

优点：
1.源自古典数学理论，有坚实的数学基础及稳定的分类效率；
2.简单高效，所需估计的参数较少，易于实现；
3.对缺失数据不敏感；
缺点：
1.需要知道先验概率；
2.模型假设特征之间是相互独立的，但是这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好；

应用场景：文本分类。

2支持向量机SVM

由数据直接学习决策函数 $f (X)$ ，属于判别模型。
SVM推导SVM推导
 原理及推导
优点：
1.对非线性数据表现较好，可以通过核函数将低维空间映射到高维；
2.对异常值不敏感，仅由少数的支持向量其作用，有很强的鲁棒性；
3.样本中增加非支持向量对模型没有影响
缺点：
1.不适用于大规模样本；
2.对非线性问题无通用解决方案，核函数选取没有统一标准；