一、说明
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
经过二十天的学习实践,参考了很多资料,写了个简单的搜索引擎,存在许多待优化之处。忘各位网友能提出好的建议。
主要是抓取网上商店的商品信息并存储,然后提供搜索界面展示信息。此处主要以淘宝为测试平台。
开发环境:ubuntu+eclipse
服务器:tomcat
开发语言:java,html,jsp
数据库:Berkeley DB
第三方jar包:jsoup(html分析),je(用于连接Berkeley DB数据库)
聚集爬虫的
二、总体设计