一、NLTK
1.表示的是出现了lol词汇的句子
2.表示的是与某个单词具有类似上下文的单词
3.检查语言风格,如在文本1、2中与small上下文一致的单词分别如下,而在文本1中与small great类似的上下文搭配如下
4.横轴代表了整个文本中的词汇分割,纵轴代表了某些词,整副图表示的是纵周的单词在词汇分布中出现的位置。
5.得出文本的总词汇长度
6.统计文本中出现的不同的单词(即不重复的单词)
7.统计整个文本中出现的不一样的单词有多少,即在整个文本中有44764个单词,而不重复的单词有2789个,即word types 为2789
8.将出现的不同的单词,按照首字母进行排序
9.测量在text3中字词的丰富性,即只有6%的新鲜词汇,每个词的使用次数大概为16次
10.计算在text3中good出现的总次数及在整个文章中所占的百分比
11.定义9 10两点
\
在进行改进时这个出了问题,为什么识别不到a呢
二、文本为词的一个列表
文本既可以看作一页纸上符号的序列,也可以看作几个部分的序列,每一部分是段落的序列。而我们的目的是将文本看作词和停用词的序列
1.进行索引
2.字符串类型
三、计算语言——简单的统计
文本差异性的原因,自动找到文本中的特殊性字符和表达
1.频率分布
读取了红楼梦的第一章,
with open("路径",'读取格式') as f
str=f.read()
print(str)即可输出
接下来输出在这里词频率最多的词
然后统计了词频的累计数目
可以统计罕见词,即仅仅出现一次的词
2.细粒度的词筛选
单纯的看词频并不能解决问题,需要尝试其他方法
3.对词的长度和出现频词做限制之后进行筛选
4.搭配和二元组
搭配是经常一起出现的词组,
需要出现list,告知其为列表
查找经常出现的搭配
但这个用自己的文本出现了问题!!!
5.计数
四、做决定和受控制
1.条件
对句子进行筛选
首字母是否大写:
判断句子中是否出现了数字,数字是几
2.对每个元素进行操作
3.嵌套代码块
4.条件循环
五、自动语言理解
- 消除句子歧义
- 代词的指代意义
- 生成语言输出
- 机器翻译
- 对话系统
- 文本含义蕴含