S2JH: 新增定向网站数据crawl爬取解析服务组件模块

基于过滤链设计模式、Htmlunit扩展、异步多线程等特性的简化定向数据爬取解析组件,提供基于天猫商品的数据采集演示单元测试(s2jh\crawl-service\src\test\java\lab\s2jh\crawl\service\test\CrawlServiceTest.java)

 

说明:此套爬虫设计主要用于一些定向网站数据抓取解析,如电商商品、交友信息等,抓取和解析特定页面的属性数据。如果是全网爬取之类的页面采集需求建议使用更专业的爬虫工具,如Apache Nutch.

 

工程代码:

https://github.com/xautlx/s2jh/tree/master/crawl-service

http://git.oschina.net/xautlx/s2jh/tree/master/crawl-service

 

所属框架项目:

S2JH:基于SSH的企业Web应用开发框架 

 

https://github.com/xautlx/s2jh

http://git.oschina.net/xautlx/s2jh

集结最新主流时尚开源技术的面向企业级Web应用的基础开发框架,提供一个J2EE相关主流开源技术架构整合及一些企业应用基础通用功能和组件的设计实现的最佳实践和原型参考。

Features

 

  • 面向主流企业级WEB应用系统的界面和常用基础功能设计实现
  • 主体基于主流的SSH(Struts2+Spring3+Hibernate4)架构
  • 引入JPA、Spring-Data-JPA提升持久层架构规范性和开发效率
  • 大量基于JQuery/Bootstrap/FreeMarker/StrutsTLD封装的UI定制化标签
  • 提供一个基础分模块的代码生成框架,简化实现基本的CRUD功能开发
  • 纯粹的免费开源技术选型,不涉及直接的收费License技术组件
  • 基于Maven的组件依赖管理模式,便捷高效的与持续集成开发集成

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值