欢迎加入QQ学习交流群,与我们一起学习,一起进步吧!
群号:225361733
可以QQ扫一扫加入群聊哦!
文章目录
前面的话
关于本文的起因(1)
最近作者在学爬虫,学会了爬取整个网站,就找了几个网站练练手,百度作为一个普及中国的网站,我自然不会放过,我决定3行代码爬一下百度网(http://www.baidu.com/)
代码如下:
import requests
response=requests.get("http://www.baidu.com/")
print(response.content.decode())
运行!
成功了,百度居然没做防爬……
关于本文的起因(2)
我得意忘形,准备爬一下其他网站,还试了CSDN,也是没得问题,但当我装B到豆瓣面前时……
嗯?啥都没有?还0错误(Process finished with exit code 0)?我以为是BUG降临,又试了几次,还是不行,原来豆瓣做了防爬!
我只好查反爬的方法,查到了……
教程开始!
参考视频(2个路径)
点我查看用B站网页播放的原视频
或者看CSDN网的在线视频……(下方)
就在上面了………………
1.添加代码——headers={"":""}
如下:
headers={"":""}
2.添加代码——,headers=headers
如下:
,headers=headers
3.打开要爬的网站
4.右键点审查元素
5.选Network
6.刷新一下网站
7.之后单击(一定要单击!)一个文件(通常文件名是网址)
8.找到XXXX:XXXXXXX……(如图上的大红框)
图中左边有个小红框,图中还有一个小红杠,那两个是作者不小心误标了
9.像这样复制粘贴在代码上
10.运行代码,成功!
后记
刚才的操作6不6?好啦,我只不过加了一个请求头部而已……
整体代码
分享一下整体代码
import requests
headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0"}
response=requests.get("https://www.douban.com/",headers=headers)
print(response.content.decode())
分享趣图……
小宝宝才吃奥利奥,我们吃 奥利给 !