基础概念:
自然语言处理 (NLP) 是机器学习的一个子领域,它使计算机能够理解、分析、操纵和生成人类语言。
在本文中,小普将向您展示如何使用自然语言工具包 (NLTK) 开发您自己的 NLP 项目,但在我们深入本教程之前,让我们看一些 NLP 的日常用例。
NLP 机器学习示例
- 垃圾邮件过滤器
- 自动更正
- 预测文本
- 语音识别
- 信息检索
- 信息抽取
- 机器翻译
- 文字简化
- 情绪分析
- 文字摘要
- 查询响应
- 自然语言生成
NLP 入门
NLTK 是一个流行的 Python 库开源套件。NLTK 不是从头开始构建所有 NLP 工具,而是提供所有常见的 NLP 任务,因此您可以直接进入。在本教程中,我将向您展示如何执行基本的 NLP 任务并使用机器学习分类器来预测 SMS是垃圾邮件(有害的、恶意的或不需要的消息)
首先,您需要安装 NLTK。
键入!pip install nltk
在Jupyter笔记本。如果它在 cmd 中不起作用,请键入conda install -c conda-forge nltk
. 除此之外,您不需要进行太多的故障排除。
导入 NLTK 库
import nltk
nltk.download()
这段代码为我们提供了一个 NLTK 下载器应用程序,它对所有 NLP 任务都有帮助。
如您所见,已经在我的系统中安装了停用词语料库,它有助于删除多余的词。您还能够安装其他对您的项目有用的软件包。
为 NLP 准备数据
读取文本数据
我们的数据以结构化或非结构化格式提供给我们。结构化格式具有明确定义的模式。例如 Excel 和 Google Sheets 是结构化数据。或者,非结构化数据没有可辨别的模式(例如图像、音频文件、社交媒体帖子)。
在这两种数据类型之间,我们可能会发现我们有一种半结构化格式。语言是半结构化数据的一个很好的例子。
从上面的代码可以看出,当我们读取半结构化数据时,计算机(和人类!)很难解释。我们可以使用 Pandas 来帮助我们理解我们的