python----爬虫实战篇（百度关键字爬取图片）

「已注销」

于 2022-07-11 17:40:04 发布

阅读量452

点赞数

分类专栏：自学python 文章标签：大数据 python 爬虫

本文链接：https://blog.csdn.net/qq_45219614/article/details/125726079

版权

遇到的问题：触发了百度的风控

解决方法：在csdn上查找了其他原代码并分析了原因发现是请求头触发了风控加以替换后解决问题

直接上代码：

import requests #请求模块
import re   #
import os   #处理文件模块
pn = 0
num = 0
dir ="D:\myassembly\爬虫练习\img/"
name =input("请输入关键词：")
dir_name =dir+name
#判断文件夹是否存在根文件夹如果不存在则进行创建
if dir_name ==None:
    os.mkdir(dir_name)
#做伪装
headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
        }
#如果只爬取单页可以把for循环删掉
for pn in range(0,80,20):
    url = "https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word="+name+"&pn="+str(pn)+"&gsm=50&ct=&ic=0&lm=-1&width=0&height=0"
    res = requests.get(url,headers=headers)
    #<Response [200]>表示请求成功
    #print(res)
    
    #print(url)