《python自然语言处理》学习笔记——第一二章

最新推荐文章于 2022-11-07 10:54:31 发布

AdamFocus

最新推荐文章于 2022-11-07 10:54:31 发布

阅读量305

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AdamFocus/article/details/102688707

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

NLTK
在这里插入图片描述

1.语言处理与python

1.1python相关用法：

nltk.book()

text.concordance(‘单词’) 查询文本中的单词

text.similar(“单词”)

text.generate()

len()

列表：

+进行列表连接

append()追加

索引

切片

变量

字符串

频率分布：

FreqDist

hapaxes()低频词

细粒度的选择词：选择出现次数多且长的词语

词语搭配和双连词：

使用bigrams函数提取双连词

?.collocation_list()
在这里插入图片描述

条件：

在这里插入图片描述

循环

1.2自动理解自然语言

信息提取、推理和总结

词义消歧

需要上下文

指代消解

确定代词或名词指的是什么

语义角色标注

确定名词短语如何动词相关联

自动生成语言

自动问答，机器翻译

机器翻译

文本对齐

人机对话系统

流程：语音输入，识别单词，文法分析，上下文解释

反向：响应规划，实现文法结构，适当词形变化，语音输出

在这里插入图片描述

2.获得文本语料和词汇资源

2.1 获取文本语料库

古腾堡语料集、网络与聊天文本、布朗语料库（研究文体之间的系统性差异）、路透社语料库、就职演说语料库、标注文本语料库、

raw函数获取未经处理的文件内容

sents函数把文本划分成句子

在这里插入图片描述

2.2条件频率分布

条件与事件：(条件，事件)

按文体计数词汇：

绘制分布图和分布表：plot方法，tabulate方法

使用双连词生成随机文本：

在这里插入图片描述

2.3代码复用

函数

模块

2.4词典资源

词典资源为一个词和\或短语以及一些相关信息的集合

一个词项包括词目以及其他附加信息。

词性加注释信息

停用词语料库

比较词表

词汇工具：ToolBox，Shoebox

2.5wordnet

wordnet是面向语义的英语词典

意见和同义词：

wordnet.synsets(?)

wordnet.synset(?).lemma_names

wordnet.synset(?).definition

wordnet.synset(?).examples

层次结构：

根同义词集

下位词

语义相似度

min_depth()

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《python自然语言处理》学习笔记——第一二章

NLTK1.语言处理与python1.1python相关用法：nltk.book()text.concordance(‘单词’) 查询文本中的单词text.similar(“单词”)text.generate()len()列表： +进行列表连接 append()追加索引切片变量字符串频率分布：FreqDist hapaxes()低频词细粒度的选择词：...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。