lucene是建立索引。
baidu等搜索引擎是已经爬取好了的。
索引建立可能不全, baidu爬取的可能也不全。
lucene是怎么建立索引的呢? 如果数据库更新速度很快,索引更新的操作麻不麻烦呢? 需不需要再封装一下?
更新lucene:
- 依赖搜索引擎去创建新索引:用baidu等搜新的,lucene搜旧的,然后再把baidu搜到的新的加到lucene的索引中,就完成了更新操作。这样可以吗?
todo:
- 了解lucene是怎样建立索引的? 是对所有词吗?
- 爬虫 先爬下baidu的搜索结果 分页
======
优化: 对于已失效链接的识别和删除