根据爬虫实现语义泛化的拓展思路

最新推荐文章于 2021-11-14 20:54:55 发布

昭刈

最新推荐文章于 2021-11-14 20:54:55 发布

阅读量87

点赞数

分类专栏：项目实训

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anzhaoyi/article/details/119191496

版权

项目实训专栏收录该内容

15 篇文章 0 订阅

订阅专栏

当前代码实现方式是首先从800万词向量中匹配关键词并通过Annoy近邻算法找到近义词，若匹配不到则用爬虫的形式访问相关网站通过分析响应页面获取到关键词。

但爬虫也具有他的局限性，我们不能总是依靠别人的数据与技术来达到目标。所以该项目如果继续完善，下一步的思路就是拓展爬虫策略。即把通过爬虫直接搜索关键词作为一个过渡策略或者保底策略。我们应当在使用爬虫搜索关键词时同时将相应的信息保存到本地的语料库中，这样将来可以作为爬虫搜索的缓存版本加快搜索速度，同时也可以为之后训练模型时提供数据支持。

另一方面，我们目前还未实现在反爬虫网站爬取近义词，我们应当构建可以泛化的爬虫模块，可以对多个站点进行爬取，而不必针对每一个网站都编写特定的信息提取代码，并以一定的权重分配来决定数据的优先权。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
根据爬虫实现语义泛化的拓展思路

当前代码实现方式是首先从800万词向量中匹配关键词并通过Annoy近邻算法找到近义词，若匹配不到则用爬虫的形式访问相关网站通过分析响应页面获取到关键词。但爬虫也具有他的局限性，我们不能总是依靠别人的数据与技术来达到目标。所以该项目如果继续完善，下一步的思路就是拓展爬虫策略。即把通过爬虫直接搜索关键词作为一个过渡策略或者保底策略。我们应当在使用爬虫搜索关键词时同时将相应的信息保存到本地的语料库中，这样将来可以作为爬虫搜索的缓存版本加快搜索速度，同时也可以为之后训练模型时提供数据支持。另一方面，我们目前还未
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。