python中用xpath和xml.dom解析html

  本次推荐的组合为xml.dom.minidom和xpath。其中xml.dom.minidom为python的标准库,无须安装。xpath为Google出品的开源项目py-dom-xpath

  安装py-dom-xpath:

  1. https://py-dom-xpath.googlecode.com/files/py-dom-xpath-0.1.tar.gz下载压缩包,解压。
  2. CD到py-dom-xpath-0.1目录
  3. 执行命令:C:\python27\python setup.py install
  4. 命令执行完成后,此目录多了两个文件夹,分别为build和dist,将/build/lib/文件夹下的xpath目录拷贝至C:\Python27\Lib目录,即安装完成。

  测试用html文件,simple.html,内容如下:

  

 1 <!DOCTYPE html>
 2 <html>
 3 <head>
 4 <title>This is a simple html file</title>
 5 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
 6 </head>
 7 <body>
 8 <div>
 9     <div>a</div>
10     <div>b</div>
11     <div>c</div>
12 </div>
13 </body>
14 </html>

 

  python文件:

  

1 import xpath
2 import xml.dom.minidom
3 
4 xml = xml.dom.minidom.parse('d:\\GitHub\\python27\\simple.html')
5 doc = xml.documentElement
6 result = xpath.find('//div',doc)[0].toxml()
7 print(result)

 

  值得注意的一个问题是,simple.html的第一行,即文档头<!DOCTYPE html>中的‘DOCTYPE’必须大写,否则xml.dom.minidom会解析失败。下一篇文章,将介绍另一个解析html的库,不存在此问题。

 

 

转载于:https://www.cnblogs.com/menma/p/4190915.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值