用java开发一个搜索导航网站

最新推荐文章于 2022-04-17 21:42:57 发布

郑林子

最新推荐文章于 2022-04-17 21:42:57 发布

阅读量2.4k

点赞数

本文链接：https://blog.csdn.net/u013982333/article/details/21802847

版权

本文作者分享了使用JAVA开发搜索导航网站的经验，包括定向爬取、网络蜘蛛、网页分析与正文提取、切词和内容管理等关键步骤。通过定向爬取获取网页特色内容，提高用户体验；使用htmlparser进行网络蜘蛛开发；正文提取则通过识别单一TABLE或DIV来定位主要内容；切词通过正向最大匹配法和专业词库实现；最后，生成静态HTML页面减轻服务器压力并利于搜索引擎收录。

摘要由CSDN通过智能技术生成

最近用业余时间做了一个搜索导航网站.该网站由定向爬取蜘蛛，网页分析，正文提取，切词，内容生成等模块
构成．全部采用JAVA开发．
　　　
　　　在网站开发过程中有不少体会，打算和各位分享
　　　
　　　1.　网站定向爬取
      2.   网络蜘蛛
　　　3.   网页分析，正文抽取
　　　4.　切词
　　　5. 　内容管理

　　我将分几个部分陆续和大家讨论

     (1)网站定向爬取

        一般的导航的网站，其内容大多是静态的连接。一个页面一大堆的网站名称连接，看的都头大。而且光看网站名称
     你很判断是否会对这个网站感兴趣。如果我们能把这些网站中的特色频道内容抓取一部分出来，让用户直接根据这些内容
     来决定是否去这个网站浏览，那么用户的体验会好很多。

        目前网络发展速度很快，每天都会新增加很多网站，大多数的个人网站都是三天打鱼两天晒网，质量高，更新频率高的
     网站不是很多，所以在爬取网页的时候需要精心挑选种子网站，把高质量的网站，有特色的网站推荐给用户。

     (2)网络蜘蛛开发

        爬取蜘蛛的开发，利用了一个开源的软件htmlparser，这个软件做蜘蛛是很不错的，只要提供个URL就能很好的获取页面
     数据流。利用HTMLPARSER很多细节就不用过多的考虑。在爬取网页的时候，重点要解决的是如何识别正文列表。因为一个网页