抽取网页数据的不同思路

最新推荐文章于 2022-11-24 17:20:39 发布

OrangeYou001

最新推荐文章于 2022-11-24 17:20:39 发布

阅读量544

点赞数

分类专栏： eclipse 文章标签： xml xsl html java

eclipse 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文来自：http://www.blogjava.net/killme2008/archive/2007/11/22/162338.html

客户要求从Internet上的网页上抽取一定的数据，用来显示或者其他用户，这个需求很常见。这两天我们也遇到了这个需求，本来我一开始想是试用正则表达式去匹配需要的文本数据，后来经验丰富的经理给出了一个更好的思路，就是使用jtidy将不符合xhtml的HTML文件转化成标准的xhtml文件——本质上就是XML文件，然后利用xsl抽取并转换成我们所需要的数据的一定格式的xml文件。这样做其实就是将XSL模板当正则表达式来用，不过更清晰，当网页改变时也不需要重新编译代码，仅仅修改XSL模板就够了。过程如下：

html->xhtml--xsl-->数据xml

做的过程中，初次使用了xsl,xpath等技术，网上找了不少好资料，共享下：
jtidy:

思路来源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/

项目地址
http://jtidy.sourceforge.net/

参考，解决中文问题使用
http://www.blogjava.net/jhengfei/archive/2006/03/25/37312.html

xsl,非常系统教程和实践:

http://www.cnblogs.com/goody9807/category/36016.html

xpath:

http://www.yesky.com/201/171201.shtml

OrangeYou001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
抽取网页数据的不同思路

客户要求从Internet上的网页上抽取一定的数据，用来显示或者其他用户，这个需求很常见。这两天我们也遇到了这个需求，本来我一开始想是试用正则表达式去匹配需要的文本数据，后来经验丰富的经理给出了一个更好的思路，就是使用jtidy将不符合xhtml的HTML文件转化成标准的xhtml文件——本质上就是XML文件，然后利用xsl抽取并转换成我们所需要的数据的一定格式的xml文件。这样做其实就是将XSL
复制链接

扫一扫

专栏目录