NLTK
1.语言处理与python
1.1python相关用法:
nltk.book()
text.concordance(‘单词’) 查询文本中的单词
text.similar(“单词”)
text.generate()
len()
列表:
+进行列表连接
append()追加
索引
切片
变量
字符串
频率分布:
FreqDist
hapaxes()低频词
细粒度的选择词:选择出现次数多且长的词语
词语搭配和双连词:
使用bigrams函数提取双连词
?.collocation_list()
条件:
循环
1.2自动理解自然语言
信息提取、推理和总结
词义消歧
需要上下文
指代消解
确定代词或名词指的是什么
语义角色标注
确定名词短语如何动词相关联
自动生成语言
自动问答,机器翻译
机器翻译
文本对齐
人机对话系统
流程:语音输入,识别单词,文法分析,上下文解释
反向:响应规划,实现文法结构,适当词形变化,语音输出
2.获得文本语料和词汇资源
2.1 获取文本语料库
古腾堡语料集、网络与聊天文本、布朗语料库(研究文体之间的系统性差异)、路透社语料库、就职演说语料库、标注文本语料库、
raw函数获取未经处理的文件内容
sents函数把文本划分成句子
2.2条件频率分布
条件与事件:(条件,事件)
按文体计数词汇:
绘制分布图和分布表:plot方法,tabulate方法
使用双连词生成随机文本:
2.3代码复用
函数
模块
2.4词典资源
词典资源为一个词和\或短语以及一些相关信息的集合
一个词项包括词目以及其他附加信息。
词性加注释信息
停用词语料库
比较词表
词汇工具:ToolBox,Shoebox
2.5wordnet
wordnet是面向语义的英语词典
意见和同义词:
wordnet.synsets(?)
wordnet.synset(?).lemma_names
wordnet.synset(?).definition
wordnet.synset(?).examples
层次结构:
根同义词集
下位词
语义相似度
min_depth()