爬虫的几种解析数据的方法
Python中的lxml模块使用示例:
from lxml import etree
htmlelement = etree.HTML(html.text)
print(etree.tostring(htmlelement,encoding='utf-8').decode('utf-8'))
使用etree.parse()解析函数默认是使用xml解析器,遇到不太规范的HTML网页,代码就会出现解析出错,这时候需要添加一个parse参数,代码如下:
from lxml import etree
parser=etree.HTMLParser(encoding='utf-8')
htmlelement = etree.parse(html.text,parser=parser)
print(etree.tostring(htmlelement,encoding='utf-8').decode('utf-8'))
etree.HTML()和etree.parse()区别,HTML会自动加上html和body标签。
使用lxml结合xpath写解析爬虫网页
from lxml import etree
parser=etree.HTMLParser(encoding='utf-8')
html = etree.parse(name.html,parser=parser)
//获取网页tr标签下的内容
a=html.xpath('//tr[2]')[0]
xpath: . 代表当前标签下的标签<