本文章已收录于:
![](http://static.blog.csdn.net/images/category_icon.jpg)
版权声明:本文为博主原创文章,未经博主允许不得转载。
搜索引擎为信息检索课程的实验设计,爬取山东大学新闻网,使用lucene等开源工具搭建小型搜索引擎。
要求 :
开发工具
- Eclipse jdk1.8
- Tomcat 7.0
- Lucene4.3
- python3.6
代码托管地址:
设计方案与过程
1. 信息爬取
爬取策略与分析
通过分析发现,山大新闻网的新闻都通过分类存放在首页上方的的二级导航中,首先,我们只爬取二级导航。
版权声明:本文为博主原创文章,未经博主允许不得转载。
搜索引擎为信息检索课程的实验设计,爬取山东大学新闻网,使用lucene等开源工具搭建小型搜索引擎。
代码托管地址:
通过分析发现,山大新闻网的新闻都通过分类存放在首页上方的的二级导航中,首先,我们只爬取二级导航。