python 解析html标签中的属性

#!/usr/bin/python
from lxml import etree
from io import StringIO, BytesIO
from HTMLParser import HTMLParser
from lxml import html 
if __name__ == '__main__':
            # print(type(data))
         data ={u'seatbid': [{u'bid': [{u'nurl': u'http://baidu.com', u'cid': u'986191', u'crid': u'4581591', u'price': 0.1317348624101392, u'adid': u'56cb0b8b70f8f8100805eeda', u'adomain': [u'mobvista.com'], u'adm': u'<a href="http://52.0.105.35/0.jpg" width ="320" height ="50" /> <html> <body><script type=\'text/javascript\'>  var ifr = document.createElement(\'iframe\'); ifr.style.display = \'none\'; ifr.src = \'http://beijing.com?a=1&appname=test\'; document.body.appendChild(ifr); </script> </body></html></a> ', u'id': u'222'}]}], u'id': u'bid1-7'}
         admstr = data['seatbid'][0]['bid'][0]['adm']
         tree = html.fromstring(admstr)
         # print [e.text_content() for e in tree.xpath("//a")]  // result  is ok 
         parser = etree.HTMLParser()
         tree   = etree.parse(StringIO(admstr), parser)      


         ahref = [a.attrib['href'] for a in tree.xpath("//a")]
         imghref=[img.attrib['src'] for img in tree.xpath("//img")]
         print     "ahref is :",ahref[0]
         print "imghref is :",imghref[0]
        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值