爬取网页源码

最新推荐文章于 2024-08-14 11:00:39 发布

qq_41858657

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量1.8k

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/qq_41858657/article/details/108008744

版权

本文介绍了如何爬取网页源码，以百度网页为示例，详细讲解了载入requests包，定义表头，并提供了获取网页请求头的步骤，最后展示了如何爬取并获取网页源码。

摘要由CSDN通过智能技术生成

以网页百度为例爬取网页源码：百度网页
1.先载入包requests

import requests

2.定义表头

headers ={ 
"Accept":"application/json,textjavascript,*/*;q=0.01",
"Accept-Language":"zh-CN,zh;q=0.9",
"Content-Type":"application/x-www-form-urlencoded;charset = UTF-8",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"}

此块可以在网页中获取
获取步骤如下：
①打开百度网页按F12再按ctrl+F5刷新，点击network之后再按name中的网址
在这里插入图片描述
②找到request headers部分即可找到此部分内容：

3.爬取源码

res = requests.get(url = "https://www.baidu.com/",headers = headers)
res.encoding = res.apparent_encoding   #加载与网页一样的编码方式
print(res.text)

ok，大公告成！！

qq_41858657

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录