WebPage网页数据采集API

最新推荐文章于 2020-01-12 15:53:10 发布

iteye_3033

最新推荐文章于 2020-01-12 15:53:10 发布

阅读量430

点赞数

分类专栏：垂直搜索文章标签： log4j Oracle Eclipse HTML XML

垂直搜索专栏收录该内容

2 篇文章 0 订阅

订阅专栏

[size=medium]
从2008年开始做网页数据采集，开始用使用别人编写的API 如HTML Parser、NekoHTML、Jericho HTML Parser（用于解析html网页），HtmlUtil（纯java版浏览器，具有Http协议和Html解析功能，JS执行功能）等，配合 HttpClient（提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，是HTTP协议有关的包，与我介绍的API中的HtmlPage类类似）。因为那些API采集[color=red]大量多种格式[/color]的网页数据时，在配置上很不灵活，例如采用DOM解析，Xpath等，导致配置复杂，所以从09年3月份开始编写自己的获取和分析网页的API：webpage。并且服务在公司的项目中。通过预先配置，经过对1万多个数据源和多种网页数据呈现格式的采集测试与改正，在2010年9月份形成一个较为稳定的版本。

修改历史：
本工具与2012-09-17发现一个bug且已修正。于今天从新打包提交一个版本，之前源码和jar包版本将删除。

1、源码包结构说明：基于com.hlxp.webpage包下开始说明：
（1）com.hlxp.webpage.app 与采集应用有关且可以独立运行的工具类，主要还是配合采集。
（2）com.hlxp.webpage.bean 采集中使用的无状态的一些VO（值对象）
（3）com.hlxp.webpage.log 包中是日志类，主要是包装了jdk自带的日志对象；和log4j的日志类。
（4）com.hlxp.webpage.util包中含一些具体的采集工具，它们使用了HtmlPage和HtmlUtil类完成特定的采集，如只采集链接，或者只采集img的链接。
（5）HtmlPage类是一个基础类，主要是通过get和post方式获取网页，也支持提交参数。
（6）HtmlUtil类是一个基础类，主要是解析通过HtmlPage获取的网页，支持正则表达式解析，支持字符切割，支持HTML标记解析。
[color=red]注：[/color]
源码中没有例子程序，例子在各解析类的main函数中。以后有空将会编写API帮助文档和例子程序，这些都将发布在本篇博客中的附件中。
有疑问的朋友可以在本博客留言，我会和大家一起讨论。

2.API功能介绍
（1）能够或普通网页和无需验证码的登录网页（需要登录的网页，要人工登录，然后复制cookie到程序中，即可获取）
（2）能够解析HTML，XML，DTD等静态文本显示数据的网页。
（3）能够方便采集翻页网页，通过设定分页链接格式，自动的生成或采集分页链接和其网页。
（4）HtmlPage.java用于获取网页，HtmlUtil.java用于解析网页的基础类。两个类的main方法中有举例。

[/size]