基于过滤链设计模式、Htmlunit扩展、异步多线程等特性的简化定向数据爬取解析组件,提供基于天猫商品的数据采集演示单元测试(s2jh\crawl-service\src\test\java\lab\s2jh\crawl\service\test\CrawlServiceTest.java)
说明:此套爬虫设计主要用于一些定向网站数据抓取解析,如电商商品、交友信息等,抓取和解析特定页面的属性数据。如果是全网爬取之类的页面采集需求建议使用更专业的爬虫工具,如Apache Nutch.
工程代码:
https://github.com/xautlx/s2jh/tree/master/crawl-service
http://git.oschina.net/xautlx/s2jh/tree/master/crawl-service
所属框架项目:
S2JH:基于SSH的企业Web应用开发框架
https://github.com/xautlx/s2jh
http://git.oschina.net/xautlx/s2jh
集结最新主流时尚开源技术的面向企业级Web应用的基础开发框架,提供一个J2EE相关主流开源技术架构整合及一些企业应用基础通用功能和组件的设计实现的最佳实践和原型参考。
Features
- 面向主流企业级WEB应用系统的界面和常用基础功能设计实现
- 主体基于主流的SSH(Struts2+Spring3+Hibernate4)架构
- 引入JPA、Spring-Data-JPA提升持久层架构规范性和开发效率
- 大量基于JQuery/Bootstrap/FreeMarker/StrutsTLD封装的UI定制化标签
- 提供一个基础分模块的代码生成框架,简化实现基本的CRUD功能开发
- 纯粹的免费开源技术选型,不涉及直接的收费License技术组件
- 基于Maven的组件依赖管理模式,便捷高效的与持续集成开发集成