爬虫-lxml和BeautifulSoup解析网页总结

sinat_38686874

于 2020-03-12 12:07:29 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/sinat_38686874/article/details/104799745

版权

本文介绍了Python爬虫中lxml模块的使用，包括etree.parse()与etree.HTML()的区别，以及如何结合xpath进行网页解析。同时，详细阐述了BeautifulSoup的find_all()和find()方法，以及如何获取a标签的href。此外，还讨论了在BeautifulSoup中使用css选择器的选择方法，并列举了获取文本内容的四种方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫的几种解析数据的方法

Python中的lxml模块使用示例：

from lxml import etree

htmlelement = etree.HTML(html.text)

print(etree.tostring(htmlelement,encoding='utf-8').decode('utf-8'))

使用etree.parse()解析函数默认是使用xml解析器，遇到不太规范的HTML网页，代码就会出现解析出错，这时候需要添加一个parse参数，代码如下：

from lxml import etree

parser=etree.HTMLParser(encoding='utf-8')

htmlelement = etree.parse(html.text,parser=parser)

print(etree.tostring(htmlelement,encoding='utf-8').decode('utf-8'))

etree.HTML()和etree.parse()区别，HTML会自动加上html和body标签。

使用lxml结合xpath写解析爬虫网页

from lxml import etree

parser=etree.HTMLParser(encoding='utf-8')

html = etree.parse(name.html,parser=parser)

//获取网页tr标签下的内容

a=html.xpath('//tr[2]')[0]

xpath: . 代表当前标签下的标签<