《python自然语言处理》学习笔记——第一二章

NLTK
在这里插入图片描述

1.语言处理与python

1.1python相关用法:

nltk.book()

text.concordance(‘单词’) 查询文本中的单词

text.similar(“单词”)

text.generate()

len()

列表:

​ +进行列表连接

​ append()追加

索引

​ 切片

变量

字符串
频率分布:
FreqDist

​ hapaxes()低频词

细粒度的选择词:选择出现次数多且长的词语

词语搭配和双连词:

​ 使用bigrams函数提取双连词

​ ?.collocation_list()
在这里插入图片描述
在这里插入图片描述

条件:

在这里插入图片描述

循环

1.2自动理解自然语言

信息提取、推理和总结

词义消歧

需要上下文

指代消解

确定代词或名词指的是什么

语义角色标注

确定名词短语如何动词相关联

自动生成语言

自动问答,机器翻译

机器翻译
文本对齐
人机对话系统

流程:语音输入,识别单词,文法分析,上下文解释

反向:响应规划,实现文法结构,适当词形变化,语音输出

在这里插入图片描述

2.获得文本语料和词汇资源

2.1 获取文本语料库

古腾堡语料集、网络与聊天文本、布朗语料库(研究文体之间的系统性差异)、路透社语料库、就职演说语料库、标注文本语料库、

raw函数获取未经处理的文件内容

sents函数把文本划分成句子

在这里插入图片描述

2.2条件频率分布

条件与事件:(条件,事件)

按文体计数词汇:

绘制分布图和分布表:plot方法,tabulate方法

使用双连词生成随机文本:

在这里插入图片描述

2.3代码复用

函数

模块

2.4词典资源

词典资源为一个词和\或短语以及一些相关信息的集合

一个词项包括词目以及其他附加信息。

词性加注释信息

停用词语料库

比较词表

词汇工具:ToolBox,Shoebox

2.5wordnet

wordnet是面向语义的英语词典

意见和同义词:

​ wordnet.synsets(?)

​ wordnet.synset(?).lemma_names

​ wordnet.synset(?).definition

​ wordnet.synset(?).examples

层次结构:

根同义词集

下位词

语义相似度

min_depth()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值