java web课程设计题目之一是做搜索引擎,简单的记录下过程。
功能是搜索湖南科技大学计算机学院官网的新闻 http://computer.hnust.edu.cn/a/xueyuanxinwen2/list_52_1.html
主要包括信息的爬取、索引建立、搜索实现、web实现
爬取新闻
在计算机学院官网爬取新闻的链接 标题 发布日期 新闻内容,每一条新闻保存为一个txt文件,以日期命名
爬取的txt列表
txt文件内容
爬虫写的比较笨拙,因为官网新闻有些格式标签不一致,所以爬的时候是一次爬七八页左右,过程中遇到了很多编码问题,建议大家先弄清楚乱码的原因