NLP成长计划（二）

最新推荐文章于 2024-05-03 17:46:09 发布

置顶 codes_first

最新推荐文章于 2024-05-03 17:46:09 发布

阅读量462

点赞数 1

分类专栏： breadcrumb NLP成长计划文章标签： word2vec doc2vec tfidf bow NLP

本文链接：https://blog.csdn.net/codes_first/article/details/83189490

版权

breadcrumb 同时被 2 个专栏收录

33 篇文章 2 订阅

订阅专栏

NLP成长计划

5 篇文章 1 订阅

订阅专栏

Setup

假设您已经完成了（一）所需的设置。

在本讲座中，我们将使用 Gensim和NLTK，这两个广泛使用的Python自然语言处理库。

如果我们想要能够对文本进行分类，我们需要能够根据文章、段落、句子和文本的其他主体所包含的信息以及它们所表示的内容来生成它们的特征。有很多方法可以做到这一点，我们将采用3种方法。

Term-Document

Bag-of-Words

从文本中提取特征的一种最简单的方法是只计算一个单词在正文中出现的次数。在这个模型中，单词的顺序并不重要，只考虑每个文档中每个唯一术语的出现次数。

清除文本数据

删除停顿和标点符号，小写

有时在将文件分解成令牌单位时放弃停用词是有用的。停用词是语料库中经常出现的术语，它们对手头的任务几乎没有任何信息价值。常用的停用词包括单词、单词、单词和单词。
标点符号非常相似；虽然它们可以提供语言环境，但有时标点符号太常见，无法提供任何价值。

这些都是停顿或标点符号！

还好，有一种简单的方法来移除它们：nltk和内置的字符串模块有单独的停顿词和标点符号列表

Stemming and Lemmatizing

我们也可以发现很多词有相似的意思，但只有它们的词性形式等不同。有时在索引之前将同一个单词的不同形式归一化给单个根标记是有意义的。有两种方法可以做到这一点：
- Stemming: 启发式方法，切去不同形式单词的结尾，试图返回即使有各种变体也保持相同的词根语素。
  - 比如:
    - I saw that movie and it was terrible →→ I saw that movi and it wa terribl
    - informative informational inform informing →→ inform inform inform inform
- Lemmatizing: 返回派生的范式或单词的字典形式，称为 lemma
  - 比如:
    - I saw that movie and it was terrible →→ I see that movie and it be terrible
    - am are is be →→ be be be be

请注意，当我们使用这个模型来特征化文本：

每个特征向量的长度将是语料库中词汇量的大小。
因此，正文的每一个都有很多0。

TF-IDF

Term Frequency: Number of occurrences of a word in a document（文档中单词的出现次数）
Inverse Document Frequency: Number of documents that contain a certain word scaled by a weight（包含按权重缩放的某个词的文档数）
Term Frequency - Inverse Document Frequency: (ww这个词在TT这个文档中出现的次数) * loglog(语料库中的文档数/包含按权重缩放的ww这个词的文档数)

让我们看看我们之前审查的电影评论的TF IDF分数。