10月5号爬虫日志

最新推荐文章于 2023-10-18 14:00:00 发布

将夜祈露光

最新推荐文章于 2023-10-18 14:00:00 发布

阅读量152

点赞数

本文链接：https://blog.csdn.net/sbqaqsjb/article/details/109103622

版权

今天比较忙，只看了Python爬虫书，代码如下

import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.get( "http://www.zhihu.com")  #第一次访问知乎，不设置头部信息

print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers，不能正常爬取，状态码不是 200

#下面是可以正常爬取的区别，更改了User-Agent字段

headers = {

		"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"

}#设置头部信息,伪装浏览器

response = requests.get( "http://www.zhihu.com" , headers=headers )  #get方法访问,传入headers参数，

print( response.status_code ) # 200！访问成功的状态码

print( response.text )

绕过反爬机制

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

将夜祈露光

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
10月5号爬虫日志

今天比较忙，只看了Python爬虫书，代码如下import requests #先导入爬虫的库，不然调用不了爬虫的函数response = requests.get( "http://www.zhihu.com") #第一次访问知乎，不设置头部信息print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers，不能正常爬取，状态码不是 200#下面是可以正常爬取的区别，更改了User-Agent字段headers = { "Us
复制链接

扫一扫