Python爬虫之lxml解析页面元素

最新推荐文章于 2024-06-16 16:54:49 发布

可可的钥匙扣

最新推荐文章于 2024-06-16 16:54:49 发布

阅读量340

点赞数

分类专栏： Python WebUI测试爬虫文章标签： python xpath html 爬虫

本文链接：https://blog.csdn.net/engelman/article/details/116714792

版权

本文介绍了如何使用Python的lxml库解析HTML，包括通过etree.HTML()处理网页源码字符串和etree.parse()解析HTML文件。重点讨论了XPath在lxml中的应用，如从Chrome复制XPath路径，处理定位为空的结果，以及获取元素属性如href等。

摘要由CSDN通过智能技术生成

一. 用lxml.etree 解析string为html格式

1、如果是用webdriver获取的页面源码，直接将源码字符串解析成html, 用etree.HTML()

from selenium import webdriver
from lxml import etree

url = "https://appexchange.salesforce.com/appxStore"
browser = webdriver.Chorme()
browser.get(url)
page_code = browser.page_source

html_code = etree.HTML(page_code) # 将page_code 字符串解析成html

app_names_xpath = '//*[@id="appx-table-results"]/li[*]/a/span[2]/span[2]/span[1]/s