Language Processing and Python

一、NLTK

1.表示的是出现了lol词汇的句子

2.表示的是与某个单词具有类似上下文的单词

3.检查语言风格,如在文本1、2中与small上下文一致的单词分别如下,而在文本1中与small great类似的上下文搭配如下

4.横轴代表了整个文本中的词汇分割,纵轴代表了某些词,整副图表示的是纵周的单词在词汇分布中出现的位置。

5.得出文本的总词汇长度

6.统计文本中出现的不同的单词(即不重复的单词)

7.统计整个文本中出现的不一样的单词有多少,即在整个文本中有44764个单词,而不重复的单词有2789个,即word types 为2789

8.将出现的不同的单词,按照首字母进行排序

9.测量在text3中字词的丰富性,即只有6%的新鲜词汇,每个词的使用次数大概为16次

10.计算在text3中good出现的总次数及在整个文章中所占的百分比

11.定义9 10两点

\

在进行改进时这个出了问题,为什么识别不到a呢

二、文本为词的一个列表

文本既可以看作一页纸上符号的序列,也可以看作几个部分的序列,每一部分是段落的序列。而我们的目的是将文本看作词和停用词的序列

1.进行索引

2.字符串类型

三、计算语言——简单的统计

文本差异性的原因,自动找到文本中的特殊性字符和表达

1.频率分布

读取了红楼梦的第一章,

with open("路径",'读取格式') as f

str=f.read()

print(str)即可输出

接下来输出在这里词频率最多的词

然后统计了词频的累计数目

可以统计罕见词,即仅仅出现一次的词

2.细粒度的词筛选

单纯的看词频并不能解决问题,需要尝试其他方法

3.对词的长度和出现频词做限制之后进行筛选

4.搭配和二元组

搭配是经常一起出现的词组,

需要出现list,告知其为列表

查找经常出现的搭配

但这个用自己的文本出现了问题!!!

5.计数

四、做决定和受控制

1.条件

对句子进行筛选

首字母是否大写:

判断句子中是否出现了数字,数字是几

2.对每个元素进行操作

3.嵌套代码块

4.条件循环

五、自动语言理解

  1. 消除句子歧义
  2. 代词的指代意义
  3. 生成语言输出
  4. 机器翻译
  5. 对话系统
  6. 文本含义蕴含

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值