第一章.语言处理与python
- nltk语料库下载
- python基础知识(list/string等)
- 计算语言——简单的统计(计数与频率)
- 语言理解技术
import nltk
test1 = ['a', 'b', 'c', 'd']
frep = nltk.FreqDist(test1) #计数返回FreqDist Class including keys
frep.plot(cumulative = TRUE) # 画出累计图
一般大部分的出现频率过高的词对于把握文本的主题和风格等没有意义
出现一次的低频词(hapaxs)对于文本特征选取也没有更多信息量
添加新的词汇选取方式
- 长高频词
Vac = set(test1)
#长高频词
long_words = [w for w in Vac if len(w)>10 and test1[w]>10]
- 搭配
collection和bigrams方法的使用
分析非结构化文本的方法日益发展
1.词义消歧
2.anaphora resolution
3.自动生成语言
4.机器翻译问题