机器学习算法整理（三）

最新推荐文章于 2023-03-05 22:09:41 发布

r1ch4rd

最新推荐文章于 2023-03-05 22:09:41 发布

阅读量119

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/r1ch4rd/article/details/94589693

版权

5 篇文章 0 订阅

订阅专栏

朴素贝叶斯

利用朴素贝叶斯解决邮件分类（文本分析）问题（监督学习）

模型的输入是 $P (邮件内容 ∣ 正常)$ ， $P (邮件内容 ∣ 垃圾)$ （似然概率）；先验概率 $P (垃圾)$ ， $P (正常)$

任务内容是计算 $P (垃圾 o r 正常 ∣ 邮件内容)$ （后验概率）

联合概率分布 $P(X_1,X_2,\cdots,X_n|Y)=\prod_{i=1}^{N}P(X_i|Y)$ （其中 $X_i$ 是相互独立的）

贝叶斯定理：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

文本的数据需要转换成向量形式（vector）

即计算 $P (邮件内容 ∣ 正常)$ ， $P (邮件内容 ∣ 垃圾)$ （似然概率）的两种方法

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

词频计算
图源来自GreedyAIAcademy
Tfidf
$t f i d f (w) = t f (d, w) * i d f (w)$ $t f (d, w)$ 是 $w$ 在 $d$ 字典中的词频；
$idf(w)=log\frac{N}{N(w)}$ ， $N$ 是文档总数， $N (w)$ 是 $w$ 在几个文档中出现
同样要进行平滑处理。

当特征为实数型时，例如w2v的向量一般为float型，连乘导致结果出现underfloor，如何解决？
A：1. 取 $l o g (P)$ 2. kenerl函数
为什么叫朴素贝叶斯？
A：因为各项条件独立
生成模型和判别模型
朴素贝叶斯的最大似然函数

 # 待完成

关注

专栏目录