根据爬虫实现语义泛化的拓展思路

当前代码实现方式是首先从800万词向量中匹配关键词并通过Annoy近邻算法找到近义词,若匹配不到则用爬虫的形式访问相关网站通过分析响应页面获取到关键词。

但爬虫也具有他的局限性,我们不能总是依靠别人的数据与技术来达到目标。所以该项目如果继续完善,下一步的思路就是拓展爬虫策略。即把通过爬虫直接搜索关键词作为一个过渡策略或者保底策略。我们应当在使用爬虫搜索关键词时同时将相应的信息保存到本地的语料库中,这样将来可以作为爬虫搜索的缓存版本加快搜索速度,同时也可以为之后训练模型时提供数据支持。

另一方面,我们目前还未实现在反爬虫网站爬取近义词,我们应当构建可以泛化的爬虫模块,可以对多个站点进行爬取,而不必针对每一个网站都编写特定的信息提取代码,并以一定的权重分配来决定数据的优先权。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值