最近用业余时间做了一个搜索导航网站.该网站由定向爬取蜘蛛,网页分析,正文提取,切词,内容生成等模块
构成.全部采用JAVA开发.
在网站开发过程中有不少体会,打算和各位分享
1. 网站定向爬取
2. 网络蜘蛛
3. 网页分析,正文抽取
4. 切词
5. 内容管理
我将分几个部分陆续和大家讨论
(1)网站定向爬取
一般的导航的网站,其内容大多是静态的连接。一个页面一大堆的网站名称连接,看的都头大。而且光看网站名称
你很判断是否会对这个网站感兴趣。如果我们能把这些网站中的特色频道内容抓取一部分出来,让用户直接根据这些内容
来决定是否去这个网站浏览,那么用户的体验会好很多。
目前网络发展速度很快,每天都会新增加很多网站,大多数的个人网站都是三天打鱼两天晒网,质量高,更新频率高的
网站不是很多,所以在爬取网页的时候需要精心挑选种子网站,把高质量的网站,有特色的网站推荐给用户。
(2)网络蜘蛛开发
爬取蜘蛛的开发,利用了一个开源的软件htmlparser,这个软件做蜘蛛是很不错的,只要提供个URL就能很好的获取页面
数据流。利用HTMLPARSER很多细节就不用过多的考虑。在爬取网页的时候,重点要解决的是如何识别正文列表。因为一个网页
构成.全部采用JAVA开发.
在网站开发过程中有不少体会,打算和各位分享
1. 网站定向爬取
2. 网络蜘蛛
3. 网页分析,正文抽取
4. 切词
5. 内容管理
我将分几个部分陆续和大家讨论
(1)网站定向爬取
一般的导航的网站,其内容大多是静态的连接。一个页面一大堆的网站名称连接,看的都头大。而且光看网站名称
你很判断是否会对这个网站感兴趣。如果我们能把这些网站中的特色频道内容抓取一部分出来,让用户直接根据这些内容
来决定是否去这个网站浏览,那么用户的体验会好很多。
目前网络发展速度很快,每天都会新增加很多网站,大多数的个人网站都是三天打鱼两天晒网,质量高,更新频率高的
网站不是很多,所以在爬取网页的时候需要精心挑选种子网站,把高质量的网站,有特色的网站推荐给用户。
(2)网络蜘蛛开发
爬取蜘蛛的开发,利用了一个开源的软件htmlparser,这个软件做蜘蛛是很不错的,只要提供个URL就能很好的获取页面
数据流。利用HTMLPARSER很多细节就不用过多的考虑。在爬取网页的时候,重点要解决的是如何识别正文列表。因为一个网页