用java开发一个搜索导航网站

本文作者分享了使用JAVA开发搜索导航网站的经验,包括定向爬取、网络蜘蛛、网页分析与正文提取、切词和内容管理等关键步骤。通过定向爬取获取网页特色内容,提高用户体验;使用htmlparser进行网络蜘蛛开发;正文提取则通过识别单一TABLE或DIV来定位主要内容;切词通过正向最大匹配法和专业词库实现;最后,生成静态HTML页面减轻服务器压力并利于搜索引擎收录。
摘要由CSDN通过智能技术生成
最近用业余时间做了一个搜索导航网站.该网站由定向爬取蜘蛛,网页分析,正文提取,切词,内容生成等模块
构成.全部采用JAVA开发.
   
   在网站开发过程中有不少体会,打算和各位分享
   
   1.  网站定向爬取
      2.   网络蜘蛛
   3.   网页分析,正文抽取
   4.  切词
   5.  内容管理
       
   我将分几个部分陆续和大家讨论

     (1)网站定向爬取

        一般的导航的网站,其内容大多是静态的连接。一个页面一大堆的网站名称连接,看的都头大。而且光看网站名称
     你很判断是否会对这个网站感兴趣。如果我们能把这些网站中的特色频道内容抓取一部分出来,让用户直接根据这些内容
     来决定是否去这个网站浏览,那么用户的体验会好很多。

        目前网络发展速度很快,每天都会新增加很多网站,大多数的个人网站都是三天打鱼两天晒网,质量高,更新频率高的
     网站不是很多,所以在爬取网页的时候需要精心挑选种子网站,把高质量的网站,有特色的网站推荐给用户。
        
     (2)网络蜘蛛开发
        
        爬取蜘蛛的开发,利用了一个开源的软件htmlparser,这个软件做蜘蛛是很不错的,只要提供个URL就能很好的获取页面
     数据流。利用HTMLPARSER很多细节就不用过多的考虑。在爬取网页的时候,重点要解决的是如何识别正文列表。因为一个网页
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值