8、lxml
- lxml 可以接收bytes和str的字符串
- 利用etree.HTML,将字符串转化为Element对象
html = etree.HTML(text) - Element对象具有xpath的方法
html.xpath(‘’) - lxml可以自动修正和补全html代码,可能会改错需要查看下
- etree.tostring(html) 可以查看element对象中所包含的字符串,根据修正后的HTML写Xpath
- 提取页面数据的思路
- 先分组,取到一个包含分组标签的列表
ret3 = html.xpath("//li[@class='item-1']")
- 遍历,取其中每一组数据进行提取,不会造成数据的对应错乱
for i in ret3: item = {<
- 先分组,取到一个包含分组标签的列表