文本分类与LDA

本文介绍了文本分类的实战应用,详细讲解了朴素贝叶斯的三种分类器,并探讨了LDA主题模型,包括其与贝叶斯模型的关系、共轭分布、狄利克雷分布以及采样原理。
摘要由CSDN通过智能技术生成

文本分类实战

本文主要是针对实战来进行设置的,假设你之前已经了解了朴素贝叶斯和支持向量机(SVM)的基础知识了。现在想从代码的层面去实战文本分类,那么这篇文章可以加深你对这两个算法的理解。

1.使用朴素贝叶斯进行文本分类

sklearn的实现中,涉及到朴素贝叶斯的主要是三个类:

1.1 GaussianNB

GaussianNB假设特征的先验概率为正态分布,即满足下式:
P ( X j = x j ∣ Y = C k ) = 1 2 π σ 2 e x p ( − ( x j − μ k ) 2 2 σ k 2 ) P(X_j=x_j|Y=C_k)=\frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x_j-\mu_k)^2}{2\sigma_k^2}) P(Xj=xjY=Ck)=2πσ2 1exp(2σk2(xjμk)2)
​ 其中 C k ​ C_k​ Ck为Y的第k类类别。 μ k ​ \mu_k​ μk σ k 2 ​ \sigma_k^2​ σk2为需要从训练集估计的值。

GaussianNB会根据训练集求出 μ k \mu_k μk σ k 2 \sigma_k^2 σk2 μ k \mu_k μk为在样本类别 C k C_k Ck中,所有 X j X_j Xj的平均值。 σ k 2 \sigma_k^2 σk2为在样本类别CkCk中,所有 X j X_j Xj的方差。

GaussianNB类的主要参数仅有一个,即先验概率priors ,对应Y的各个类别的先验概率 P ( Y = C k ) P(Y=C_k) P(Y=Ck)</

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值