NLTK自然语言处理简介

最新推荐文章于 2024-02-28 15:41:04 发布

寒冰屋

最新推荐文章于 2024-02-28 15:41:04 发布

阅读量833

点赞数

分类专栏：人工智能 python 文章标签： NLTK 自然语言处理

原文链接：https://www.codeproject.com/Articles/5270756/Introduction-to-Natural-Language-Processing-with-N

版权

人工智能同时被 2 个专栏收录

544 篇文章 57 订阅

订阅专栏

python

262 篇文章 9 订阅

订阅专栏

安装

文本分类

结论

自然语言工具包（NLTK）提供了许多用于对文本内容执行自然语言处理（NLP）和机器学习分析的功能。我们将通过一个情感分析示例来演示其文本分类功能。

下载源1.6 KB

这是我们学习Python系列及其在机器学习和AI中的使用的第六个模块。在上一篇中，我们讨论了使用OpenCV进行图像识别。现在让我们看一下自然语言工具包（NLTK）可以做什么。

安装

可以使用Anaconda安装NTLK：

conda install nltk

或使用pip，通过在Jupyter Notebook单元中运行此命令：

!pip install --upgrade nltk

如果以下Python代码正确运行，则安装成功：

import nltk

NLTK附带了许多您可以下载的数据（语料库、语法、模型等）。只需运行以下Python命令即可显示一个交互式下载窗口：

ntlk.download()

对于此模块，您需要安装“停用词”语料库。下载后，创建一个名为NLTK_DATA的环境变量，该变量包含下载目录的路径（如果您进行集中安装，则不需要此变量；有关安装数据的完整指南，请参考文档）。

文本分类

对文本进行分类意味着为其分配标签。可以通过多种方式对文本进行分类，例如，通过情感分析（积极/消极[/中性]），垃圾邮件分类（垃圾邮件/非垃圾邮件），文档主题等等。

在本模块中，我们将使用“大型电影评论数据集”浏览文本分类示例，该数据集提供25,000个电影评论（正片和负片）进行培训，并提供相同数量的测试片。

NLTK提供了朴素贝叶斯分类器来处理机器学习工作。我们的工作主要是编写一个从文本中提取“功能”的函数。分类器使用这些功能执行分类。

我们的函数称为功能提取器，它以字符串（文本）作为参数，并返回将功能名称映射到其值的字典，称为功能集。

对于电影评论，我们的功能将是前N个字（不包括停用词）。因此，特征提取器将返回以这N个单词为键的特征集，并以布尔值指示其存在或不存在作为值。

第一步是浏览评论，存储所有单词（停用词除外），并找到最常用的单词。

首先，此辅助函数获取文本并输出其不间断字词：

import nltk
import nltk.sentiment.util
from nltk.corpus import stopwords

import nltk.sentiment.util
stop = set(stopwords.words("english"))
def extract_words_from_text(text):
    tokens = nltk.word_tokenize(text)
    tokens_neg_marked = nltk.sentiment.util.mark_negation(tokens)
    return [t for t in tokens_neg_marked
             if t.replace("_NEG", "").isalnum() and
             t.replace("_NEG", "") not in stop]

word_tokenize 将文本拆分为标记列表（仍保留标点符号）。

mark_negation标记与_NEG取反之后的标记。因此，例如，“I did not enjoy this.”，在标记和标记否定之后变为：

["I", "did", "not", "enjoy_NEG", "this_NEG", "."]。

最后一行删除所有停用词（包括否定词）和标点符号。文本中仍然有许多无用的词，例如“I”或“This”，但是这种过滤足以满足我们的演示要求。

接下来，我们构造一个从审阅文件中读取的所有单词的列表。我们会保留一个单独的肯定和否定单词列表，以确保在我们选择最重要的单词时保持平衡。（我也对它进行了测试，但没有将单词列表分开，然后发现大多数肯定评论都归为否定。）同时，我们还可以创建所有肯定评论和所有否定评论的列表。

import os

positive_files = os.listdir("aclImdb/train/pos")
negative_files = os.listdir("aclImdb/train/neg")

positive_words = []
negative_words = []

positive_reviews = []
negative_reviews = []

for pos_file in positive_files:
    with open("aclImdb/train/pos/" + pos_file, "r") as f:
        txt = f.read().replace("<br />", " ")
        positive_reviews.append(txt)
        positive_words.extend(extract_words_from_text(txt))
for neg_file in negative_files:
    with open("aclImdb/train/neg/" + neg_file, "r") as f:
        txt = f.read().replace("<br />", " ")
        negative_reviews.append(txt)
        negative_words.extend(extract_words_from_text(txt))

因为有很多文件，所以运行此代码可能要花一些时间。

然后，我们只保留肯定和否定单词列表中的前N个单词（在此示例中为2000个单词），并将它们组合在一起。

N = 2000

freq_pos = nltk.FreqDist(positive_words)
top_word_counts_pos = sorted(freq_pos.items(), key=lambda kv: kv[1], reverse=True)[:N]
top_words_pos = [twc[0] for twc in top_word_counts_pos]

freq_neg = nltk.FreqDist(negative_words)
top_word_counts_neg = sorted(freq_neg.items(), key=lambda kv: kv[1], reverse=True)[:N]
top_words_neg = [twc[0] for twc in top_word_counts_neg]

top_words = list(set(top_words_pos + top_words_neg))

现在我们可以编写一个特征提取器。如前所述，它应返回一个字典，其中每个高位单词均作为键，True或者False作为值，取决于单词是否在文本中出现。

def extract_features(text):
    text_words = extract_words_from_text(text)
    return { w: w in text_words for w in top_words }

然后，我们创建一个训练集，并将其输入到朴素贝叶斯分类器中。训练集应该是一个元组列表，其中每个元组的第一个元素是功能集，第二个元素是标签。

training = [(extract_features(review), "pos") for review in positive_reviews] + [(extract_features(review), "neg") for review in negative_reviews]

上面的行消耗大量RAM，并且速度很慢，因此您可能需要使用一部分评论，而只需要查看一部分评论列表。

训练分类器很简单：

classifier = nltk.NaiveBayesClassifier.train(training)

要立即对评论进行分类，请在新功能集上使用classify方法：

print(classifier.classify(extract_features("Your review goes here.")))

如果要查看每个标签的概率，请改用prob_classify：

def get_prob_dist(text):
    prob_dist = classifier.prob_classify(extract_features(text))
    return { "pos": prob_dist.prob("pos"), "neg": prob_dist.prob("neg") }

print(get_prob_dist("Your review goes here."))

分类器具有基于测试集确定模型准确性的内置方法。该测试集的形状与训练集相同。电影评论数据集具有一个单独的目录，其中包含可用于此目的的评论。

test_positive = os.listdir("aclImdb/test/pos")[:2500]
test_negative = os.listdir("aclImdb/test/neg")[:2500]

test = []

for pos_file in test_positive:
    with open("aclImdb/test/pos/" + pos_file, "r") as f:
        txt = f.read().replace("<br />", " ")
        test.append((extract_features(txt), "pos"))
for neg_file in test_negative:
    with open("aclImdb/test/neg/" + neg_file, "r") as f:
        txt = f.read().replace("<br />", " ")
        test.append((extract_features(txt), "neg"))

print(nltk.classify.accuracy(classifier, test))

使用N = 2000，在训练集中有5000条正面评论和5000条负面评论，使用此代码，我的准确率约为85％。

结论

在本模块中，我们研究了NLTK在文本分类中的工作原理，并使用情感分析进行了演示。您可以将其以相同的方式用于其他分类，包括具有两个以上标签的分类。

在接下来的模块，我们将看看Keras。

寒冰屋

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLTK自然语言处理简介

目录安装文本分类结论自然语言工具包（NLTK）提供了许多用于对文本内容执行自然语言处理（NLP）和机器学习分析的功能。我们将通过一个情感分析示例来演示其文本分类功能。下载源1.6 KB这是我们学习Python系列及其在机器学习和AI中的使用的第六个模块。在上一篇中，我们讨论了使用OpenCV进行图像识别。现在让我们看一下自然语言工具包（NLTK）可以做什么。安装可以使用Anaconda安装NTLK：conda install nltk或使用pip，通过在Jupyte
复制链接

扫一扫

专栏目录