【人工智能】NLP自然语言处理-第一节

【人工智能】NLP自然语言处理

NLP自然语言处理-第一节

【NLP自然语言处理】电子书籍+PPT,关注作者后私信免费领取【免费】

NLP-文本和词汇

自然语言处理

文本和词汇

中国 成都

C H E N G D U , C H I N A

目录

自然语言处理简介
文本和词汇
NLTK入门
搜索文本
计数词汇

自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用
(linguistic performance)的模型,建立计算框架来实现这样的语言模型, 提出相应的方法来不断地完善这样的语言模型, 根据这样的语言模型设计各种实用系统, 并探讨这些实用系统的评测技术
本学科的主题与背景:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。”
为什么要研究自然语言处理?
两类不同的语言处理模型
能力应用
模型模型
(一)能力模型
通常是基于语言学规则的模型, 建立在人脑中先天存在语法通则这一假设的基础上, 认为语言是人脑的语言能力推导出来的, 建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。
又称“理性主义的”语言模型。
建模步骤:
一语言学知识形式化
二形式化规则算法化
三算法实现
(二)应用模型
根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型。
又称“经验主义的”语言模型。
建模步骤
大规模真实语料库中获得语言各级语言单位上的统计信息
依据较低级语言单位上的统计信息运用相关的统计
二推理技术计算较高级语言单位上的统计信息

自然语言处理的知识内容:
音位学
形态学
词汇学
语用学语义学
句法学
我们都对文本非常熟悉,因为我们每天都在进行阅读和写作。在本书中, 把文本视为编写程序的原始数据, 并通过很多有趣的编程方式来处理和分析文本。但在能写这些程序之前, 必须得从了解Python解释器开始。

Python与用户友好交互的方式之一包括你可以在交互式解释器直接输入代码—— 解释器将运行你的Python代码的程序。你可以通过一个叫做交互式开发环境( I n t e r a c t i v e D e v e l o p m e n t Environment,IDLE)的简单图形接口来访问Python解释器。还有Pycharm、Ipython等等。在本课程中我们选择Visual-Studio Code。

在本课程中我们选择Visual-Studio Code。

【例1 - 1 】解释器将会输入关于你的Python的版本简介, 请检查运行的Python 版本。

ros@ ros- vir tual- machine:~/ opencv/ NLP$python-- version

Python 2.7.12

【例1-2】在python中进行简单的四则运算。

Python 2.7.12 (default, Oct8 2019, 14:14:10)

[GCC 5.4.0 20160609] on linux2

Ty p e " h e l p " , " c o p y r i g h t " ," c re d i t s “o r” l i c e n s e"f o rm o re information.

1 + 5 * 2 - 3

【例1-3】在Visual-Studio Code中进行同样的运算。

首先应该安装NLTK, 可以从http:// www. nltk . org/ 上免费下载。按照说明下载适合你的操作系统的版本。

NLTK( Python自然语言工具包) 用于诸如标记化、词形还原

、词干化、解析、POS标注等任务。该库具有几乎所有NLP任务的工具。直接使用命令:pip install nltk 进行安装。

一旦安装完成, 便可像前面那样启动P y t h o n 解释器。 在Python提示符后面输入下面两行命令来安装本书所需的数据,然后选择book,如图所示。

弹出一个窗口,下载 NLTK 图书集:使用 nltk . download() 浏览可用的软件包。下载器上的 Collections 选项卡显示软件包如何被打包分组,选择book下载。

一旦数据被下载到你的机器, 你就可以使用Python解释器加载其中的一些了。第一步是在Python提示符后输入一个特殊的命令, 告诉解释器去加载一些我们要用的文本: f rom nltk. book import *。这条语句是说“ 从NLTK的book模块中加载所有的条目”。book 模块包含你阅读本章时所需的所有数据。

【例1 - 4 】调用book模块, 在输出欢迎信息之后, 将会加载一些书的文本( 这将需要几秒钟)。请输入下面的命令的到如下输出结果。

【例1 - 5 】如果想要找到上面列表中的文本, 只需要在 Python 提示符后输入它们的名字。或者用print直接打印出来。

除了阅读文本之外,还有很多方法可以用来研究文本内容。词语索引视图显示一个指定单词的每一次出现, 连同一些上下文一起显示。

我们用下面的语句来查询或搜索文本中的内容,括号里面的的参数指的是要搜索的文本。

text1.concordance(“text”)

【例1-6】搜索文本,来查一下《白鲸记》中的词monstrous

关键词索引让我们可以看到上下文中的词。例如: 我们看到monstrous出现在文章中,如the___pictures和thesize。还有哪些词出现在相似的上下文中? 我们可以通过在被查询的文本名后添加函数名similar,然后在括号中插入相关词的方法来查找到。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值