聚集搜索引擎java实现

本文介绍了聚焦爬虫的基本原理和区别,分享了一款作者通过二十天学习实践完成的简单搜索引擎,主要用于抓取和搜索商品信息,特别是在淘宝平台。该搜索引擎采用Java开发,结合HTML、JSP和Berkeley DB数据库,使用jsoup和je库。文章提到了总体设计和代码结构,包括URL管理、下载器、缓冲池、页面解析、存储、索引等关键组件,并提供了源码下载链接。
摘要由CSDN通过智能技术生成

一、说明

聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

经过二十天的学习实践,参考了很多资料,写了个简单的搜索引擎,存在许多待优化之处。忘各位网友能提出好的建议。

主要是抓取网上商店的商品信息并存储,然后提供搜索界面展示信息。此处主要以淘宝为测试平台。

开发环境:ubuntu+eclipse

服务器:tomcat

开发语言:java,html,jsp

数据库:Berkeley DB

第三方jar包:jsoup(html分析),je(用于连接Berkeley DB数据库)

聚集爬虫的

 

二、总体设计

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值