#(1)获取网页源码
#(2)解析服务器响应的数据 etree.HTML()
#(3)打印
import urllib.request
from lxml import etree
url = 'https://www.baidu.com/'
headers = {
'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 SLBrowser/9.0.3.1311 SLBChan/103'
}
request = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
#解析网页源码 获取想要的数据
#解析服务器响应文件
tree = etree.HTML(content)
#获取想要的数据 xpath返回值为一个列表数据
result = tree.xpath('//input[@id="su"]/@value')[0]
print(result)
爬虫-----071xpath解析百度的百度一下
最新推荐文章于 2024-07-08 16:12:25 发布
本文介绍了如何使用Python的urllib和lxml库从指定网站(如baidu.com)获取网页源码,并通过XPath解析服务器响应,提取特定数据(如输入框id为su的值)。
摘要由CSDN通过智能技术生成