2021_12_04_自学笔记_获取百度网站的百度一下

最新推荐文章于 2024-04-20 18:14:42 发布

Harken丶

最新推荐文章于 2024-04-20 18:14:42 发布

阅读量794

点赞数

分类专栏：笔记文章标签：百度 python

本文链接：https://blog.csdn.net/weixin_38002308/article/details/121719483

版权

笔记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

# _*_ coding : utf-8 _*_
# @Time : 2021/12/4 17:50
# @Author : Harken

# 1.获取网页源码
# 2.解析  解析的服务器响应的文件  etree.HTML
# 3.打印

import urllib.request

url = 'https://www.baidu.com/'
headers = {
    'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}
# 请求对象定制
request = urllib.request.Request(url = url,headers=headers)
#模拟浏览器访问服务器
respons = urllib.request.urlopen(request)
# 获取网页源码
content = respons.read().decode('utf-8')
# 解析网页源码来获取想要的数据
from lxml import etree
# 解析服务器响应的文件
tree = etree.HTML(content)
# 获取想要的数据 xpath返回的值是一个列表类型的数据  可通过列表下标访问[0]
result = tree.xpath('//input[@id="su"]/@value')[0]
print(result)