《Python自然语言处理》学习笔记-第一章

最新推荐文章于 2021-03-21 00:36:46 发布

huangjx36

最新推荐文章于 2021-03-21 00:36:46 发布

阅读量846

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huangjx36/article/details/75777160

版权

本文是《Python自然语言处理》第一章的学习笔记，涵盖了语言计算的基础，包括词语索引、频率分布、词链表操作、字符串处理以及Python控制结构在文本处理中的应用，同时介绍了自动理解自然语言的基本概念，如词意消歧和指代消解。

摘要由CSDN通过智能技术生成

1.1 语言计算：文本和单词

搜索文本
（1）词语索引视图：显示一个指定单词的每一次出现，连同一些上下文一起显示。使用concordance(‘xxx’)方法。
（2）找出现在相似上下文的词，使用similar(‘xxx’)方法。
（3）获取两个或两个以上的词的共同上下文，使用common_contexts([])方法。
（4）离散图：判断词在文本中的位置，显示从文本开头算起它前面有多少个词，使用dispersion_plot([])方法。（也需要安装numpy的matplotlib包）离散图可以用来词语用法模式，随时间推移语言使用上的变化。
（5）在nltk3中没有了generate这个产生随机文本的方法。

计数词汇
（1）使用len获取长度。
（2）使用set函数去除重复的词，得到词汇表。
（3）词类型：指一个词在一个文本中独一无二的出现形式或拼写，标点符号不算。
（4）文本词汇丰富度测量：即每个词平均被使用的次数，也就是文本总词数除以词汇表长度。
（5）count方法计数特定词在文本中出现的次数。

1.2 近观Python：将文本当作词链表

链表
ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。