聚集搜索引擎java实现

一、说明

聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

经过二十天的学习实践,参考了很多资料,写了个简单的搜索引擎,存在许多待优化之处。忘各位网友能提出好的建议。

主要是抓取网上商店的商品信息并存储,然后提供搜索界面展示信息。此处主要以淘宝为测试平台。

开发环境:ubuntu+eclipse

服务器:tomcat

开发语言:java,html,jsp

数据库:Berkeley DB

第三方jar包:jsoup(html分析),je(用于连接Berkeley DB数据库)

聚集爬虫的

 

二、总体设计

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值