python etree htm参数_python笔记1--lxml.etree解析html

快来关注吧！

...

'''

# etree.HTML解析html内容

demo = etree.HTML(htmldemo)

# 打印解析内容str

t = etree.tostring(demo, encoding="utf-8", pretty_print=True)

print(t.decode("utf-8"))

运行结果

yoyo ketang

yoyoketang

这里是我的微信公众号：yoyoketang

快来关注吧！

...

soupparser解析器

soupparser解析器比上面的etree.HTML容错性要好一点，因为其处理不规范的html能力比etree强太多。

import lxml.html.soupparser as soupparser

demo = soupparser.fromstring(htmldemo)

t = etree.tostring(demo, encoding="utf-8", pretty_print=True)

print(t.decode("utf-8"))

xpath使用案例

使用html解析器，最终是想获取html上的某些元素属性和text文本内容，接下来看下，用最少的代码，简单高效的找出想要的内容。

比如要获取“这里是我的微信公众号：yoyoketang

# coding:utf-8

from lxml import etree

htmldemo = '''

yoyo ketang

yoyoketang

这里是我的微信公众号：yoyoketang

快来关注吧！

...

'''

# etree.HTML解析html内容

demo = etree.HTML(htmldemo)

rs=demo.xpath('//p[@class="yoyo"]')

t=rs[0].text

print(t)

运行结果：

从代码量上看，简单的三行代码就能找到想要的内容了，rs是xpath定位获取到的一个list对象，会找出所有符合条件的元素对象。可以用for循环查看详情。

# coding:utf-8

from lxml import etree

htmldemo = '''

yoyo ketang

yoyoketang

这里是我的微信公众号：yoyoketang

快来关注吧！

...

'''

# etree.HTML解析html内容

demo = etree.HTML(htmldemo)

rs=demo.xpath('//p[@class="yoyo"]')

print(rs) #list对象

for j in rs:

#打印定位到的内容

print(etree.tostring(j,encoding="utf-8",pretty_print=True).decode("utf-8"))

print(j.attrib)

运行结果

[]

这里是我的微信公众号：yoyoketang

快来关注吧！

{'class': 'yoyo'}

二次查找

通过xpath定位语法//p[@class="yoyo"]定位到的是class="yoyo"这个元素以及它的所有子节点，如果想定位其中一个子节点，可以二次定位，继续xpath查看，如获取:python笔记

# coding:utf-8

from lxml import etree

htmldemo = '''

yoyo ketang

yoyoketang

这里是我的微信公众号：yoyoketang