【深度之眼】七：分类 —— 过滤垃圾邮件【朴素贝叶斯算法 — 文本分类】

InitialHeart2021

已于 2023-02-17 17:23:42 修改

阅读量201

点赞数

分类专栏：【五】机器学习实战文章标签：分类人工智能

于 2023-02-08 10:33:41 首次发布

本文链接：https://blog.csdn.net/initialheart2021/article/details/128931221

版权

【五】机器学习实战专栏收录该内容

18 篇文章 1 订阅

订阅专栏

文章目录

一、数据下载
二、任务详解
三、重点知识
- 3.1 TF–IDF
- - 3.1.1 词集模型（set-of-words model）与词袋模型（bag-of-words model）的区别
四、知识概述

一、数据下载

链接：https://pan.baidu.com/s/1JX0Voc3bOgTSoD9PRKeKAQ
提取码：dpd5

二、任务详解

本节将充分利用 Python 的文本处理能力将文档切分成词向量，然后利用词向量对文档进行分类。我们还将构建另一个分类器，观察其在真实的垃圾邮件数据集中的过滤效果。重点掌握文本的划分，以及朴素贝叶斯算法在训练函数中如何实现的。

三、重点知识

3.1 TF–IDF

3.1.1 词集模型（set-of-words model）与词袋模型（bag-of-words model）的区别

词袋法（BOW）：该模型忽略文本的语法和语序，用一组无序的单词来表达一段文字或一个文档，词袋法中使用单词在文档中出现的次数（频数）来表示文档
词集法（SOW）：是词袋法的一种变种，原理同词袋法一样，是以文档中的单词来表示文档的一种模型，区别在于：词袋法使用的是单词的频数，而在词集法中使用的是单词是否出现，如果出现赋值为1，否则为0.
如何评估一个单词对于一个文本的重要性呢？
（1）单词的重要性随着它在文本中出现的次数成正比增加，也就是单词的出现次数越多，该单词对于文本的重要性就越高。
（2）同样单词的重要性会随着语料库中出现的频率成反比下降，也就是单词在语料库中出现的频率越高，表示该单词越常见，也就是该单词对于文本的重要性越低
TF-IDF是一种常用的用于信息检索与数据挖掘的常用加权技术，TF是词频，IDF是逆向文件频率，TF-IDF可以反应语料中单词对文档 / 文本的重要程度
假设单词用 t 表示，文档用 d 表示，语料库用 D 表示，那么N(t,D)表示包含单词 t 的文档数量，|D|表示文档数量，|d|表示文档 d 中的所有单词数量，N(t,d)表示在文档 d 中单词t出现的次数