自然语言处理task4

1朴素贝叶斯

由数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX),属于生成模型。
贝叶斯公式: P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
对于一个数据集 T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})} T=(x1,y1),(x2,y2),...,(xn,yn),其中每个 x i = x i 1 , x i 2 , . . . , x i n x_{i}={x_i^1,x_i^2,...,x_i^n} xi=xi1,xi2,...,xin,即有n个特征,类标签集合 Y = c 1 , c 2 , . . . , c k Y={c_{1},c_{2},...,c_{k}} Y=c1,c2,...,ck,朴素贝叶斯的原理是:
1.根据数据集计算先验概率 P ( y = c k ) P(y=c_{k}) P(y=ck)
2.在条件独立性假设前提下计算条件概率 P ( X = x i ∣ Y = c k ) = P ( x i = x i 1 , x i 2 , . . . , x i n ∣ y = c k ) = ∏ j = 1 n P ( x i j ∣ y = c k ) P(X=x_i|Y=c_k)=P(x_i={x_i^1,x_i^2,...,x_i^n}|y=c_{k})={\prod_{j=1}^nP(x_i^j|y=c_k}) P(X=xiY=ck)=P(xi=xi1,xi2,...,xiny=ck)=j=1nP(xijy=ck)
3.给定输入 x x x,根据贝叶斯公式,计算后验概率 P ( Y = c k ∣ X = x ) P(Y=c_{k}|X=x) P(Y=ckX=x),将后验概率最大的类作为 x x x的类输出。

基于以上解释,我们知道(1)该算法的理论核心是贝叶斯定理;(2)它是基于条件独立性假设之上的,即假设特征之间相互独立,没有相关性,这是为什么称之为“朴素”的原因。

优点:
1.源自古典数学理论,有坚实的数学基础及稳定的分类效率;
2.简单高效,所需估计的参数较少,易于实现;
3.对缺失数据不敏感;
缺点:
1.需要知道先验概率;
2.模型假设特征之间是相互独立的,但是这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好;

应用场景:文本分类。

2支持向量机SVM

由数据直接学习决策函数 f ( X ) f(X) f(X),属于判别模型。
SVM推导SVM推导
原理及推导
优点:
1.对非线性数据表现较好,可以通过核函数将低维空间映射到高维;
2.对异常值不敏感,仅由少数的支持向量其作用,有很强的鲁棒性;
3.样本中增加非支持向量对模型没有影响
缺点:
1.不适用于大规模样本;
2.对非线性问题无通用解决方案,核函数选取没有统一标准;

LSA/PLSA

PLSA

共轭先验分布

共轭先验分布

LDA主题模型原理

LDA主题模型原理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值