将文章标题标签存入数据库

最新推荐文章于 2024-07-03 11:57:48 发布

请叫我西木同学

最新推荐文章于 2024-07-03 11:57:48 发布

阅读量531

点赞数

分类专栏：大数据 mongodb 文章标签： mongodb nltk python tag

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq965194745/article/details/79319627

版权

本文介绍了在获取文章标题标签后，利用nltk进行分词分类，并在过程中解决Python与MongoDB交互时遇到的问题。针对Text.collocations()方法返回none的情况，通过查看源码和文档找到了解决方案，即利用_text._collocations属性存储结果。同时，为确保标签不重复添加到数据库，应用了特定的数据库操作，如文本索引和updateMany命令。测试结果显示，400多篇文章标题被快速处理并打上了标签。

摘要由CSDN通过智能技术生成

紧接着之前获取完文章标题标签完之后的操作

一个获取大量文章标题标签的办法

使用完nltk分词对文章标题分类之后

延续之前的思路开始实现

过程中遇到的一些问题

获取方法的问题

python方面

如果是采用方法1手写的ngram标签采集方法，那么可以很方便的获取词频以及标签
如果是方法2，Text.collocations()方法返回的是none
这里写图片描述
源码中可以很清楚的看到其实现用了比方法1更科学的分析方法，但是其并没有返回那个2gram集合出来，而是打印到了控制台上。

mongo方面

要求对文章标题精确检索到含有标签的，不重复的加上标签

解决方法

对于Text.collocations()，在百度获取控制台的输出无果之后，研究了两个英文文档

最低0.47元/天解锁文章

请叫我西木同学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。