Language Processing and Python

最新推荐文章于 2024-09-09 08:24:24 发布

Zhen大虾

最新推荐文章于 2024-09-09 08:24:24 发布

阅读量154

点赞数

文章标签： nltk

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38527856/article/details/88100957

版权

一、NLTK

1.表示的是出现了lol词汇的句子

2.表示的是与某个单词具有类似上下文的单词

3.检查语言风格，如在文本1、2中与small上下文一致的单词分别如下，而在文本1中与small great类似的上下文搭配如下

4.横轴代表了整个文本中的词汇分割，纵轴代表了某些词，整副图表示的是纵周的单词在词汇分布中出现的位置。

5.得出文本的总词汇长度

6.统计文本中出现的不同的单词（即不重复的单词）

7.统计整个文本中出现的不一样的单词有多少，即在整个文本中有44764个单词，而不重复的单词有2789个,即word types 为2789

8.将出现的不同的单词，按照首字母进行排序

9.测量在text3中字词的丰富性，即只有6%的新鲜词汇，每个词的使用次数大概为16次

10.计算在text3中good出现的总次数及在整个文章中所占的百分比

11.定义9 10两点

\

在进行改进时这个出了问题，为什么识别不到a呢

二、文本为词的一个列表

文本既可以看作一页纸上符号的序列，也可以看作几个部分的序列，每一部分是段落的序列。而我们的目的是将文本看作词和停用词的序列

1.进行索引

2.字符串类型

三、计算语言——简单的统计

文本差异性的原因，自动找到文本中的特殊性字符和表达

1.频率分布

读取了红楼梦的第一章，

with open("路径"，'读取格式') as f

str=f.read()

print(str)即可输出

接下来输出在这里词频率最多的词

然后统计了词频的累计数目

可以统计罕见词，即仅仅出现一次的词

2.细粒度的词筛选

单纯的看词频并不能解决问题，需要尝试其他方法

3.对词的长度和出现频词做限制之后进行筛选

4.搭配和二元组

搭配是经常一起出现的词组，

需要出现list,告知其为列表

查找经常出现的搭配

但这个用自己的文本出现了问题！！！

5.计数

四、做决定和受控制

1.条件

对句子进行筛选

首字母是否大写：

判断句子中是否出现了数字，数字是几

2.对每个元素进行操作

3.嵌套代码块

4.条件循环

五、自动语言理解

消除句子歧义
代词的指代意义
生成语言输出
机器翻译
对话系统
文本含义蕴含

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。