当前代码实现方式是首先从800万词向量中匹配关键词并通过Annoy近邻算法找到近义词,若匹配不到则用爬虫的形式访问相关网站通过分析响应页面获取到关键词。
但爬虫也具有他的局限性,我们不能总是依靠别人的数据与技术来达到目标。所以该项目如果继续完善,下一步的思路就是拓展爬虫策略。即把通过爬虫直接搜索关键词作为一个过渡策略或者保底策略。我们应当在使用爬虫搜索关键词时同时将相应的信息保存到本地的语料库中,这样将来可以作为爬虫搜索的缓存版本加快搜索速度,同时也可以为之后训练模型时提供数据支持。
另一方面,我们目前还未实现在反爬虫网站爬取近义词,我们应当构建可以泛化的爬虫模块,可以对多个站点进行爬取,而不必针对每一个网站都编写特定的信息提取代码,并以一定的权重分配来决定数据的优先权。