抽取网页数据的不同思路

      本文来自:http://www.blogjava.net/killme2008/archive/2007/11/22/162338.html

      客户要求从Internet上的网页上抽取一定的数据,用来显示或者其他用户,这个需求很常见。这两天我们也遇到了这个需求,本来我一开始想是试用正则表达式去匹配需要的文本数据,后来经验丰富的经理给出了一个更好的思路,就是使用jtidy将不符合xhtml的HTML文件转化成标准的xhtml文件——本质上就是XML文件,然后利用xsl抽取并转换成我们所需要的数据的一定格式的xml文件。这样做其实就是将XSL模板当正则表达式来用,不过更清晰,当网页改变时也不需要重新编译代码,仅仅修改XSL模板就够了。过程如下:

     html->xhtml--xsl-->数据xml

    做的过程中,初次使用了xsl,xpath等技术,网上找了不少好资料,共享下:
jtidy: 

思路来源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/

项目地址
http://jtidy.sourceforge.net/

参考,解决中文问题使用
http://www.blogjava.net/jhengfei/archive/2006/03/25/37312.html

xsl,非常系统教程和实践:

http://www.cnblogs.com/goody9807/category/36016.html

xpath:

http://www.yesky.com/201/171201.shtml
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值