python----爬虫实战篇(百度关键字爬取图片)

遇到的问题:触发了百度的风控

解决方法:在csdn上查找了其他原代码并分析了原因发现是请求头触发了风控加以替换后解决问题

直接上代码:

import requests #请求模块
import re   #
import os   #处理文件模块
pn = 0
num = 0
dir ="D:\myassembly\爬虫练习\img/"
name =input("请输入关键词:")
dir_name =dir+name
#判断文件夹是否存在根文件夹如果不存在则进行创建
if dir_name ==None:
    os.mkdir(dir_name)
#做伪装
headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
        }
#如果只爬取单页可以把for循环删掉
for pn in range(0,80,20):
    url = "https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word="+name+"&pn="+str(pn)+"&gsm=50&ct=&ic=0&lm=-1&width=0&height=0"
    res = requests.get(url,headers=headers)
    #<Response [200]>表示请求成功
    #print(res)
    
    #print(url)
  
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一种高级编程语言,拥有丰富的库和模块,可以方便地进行网络爬虫操作,用于从互联网上获数据。关键字是Python语言中具备特殊含义的单词,其中一个关键字是""。我们可以使用Python关键字来编写代码,实现从百度图片网站上图片的功能。 首先,我们需要安装相关的Python库,例如"requests"用于发送网络请求,"beautifulsoup4"用于解析网页内容。然后,我们可以编写Python代码来实现百度图片的功能。 首先,我们需要导入上述所需的库: ``` import requests from bs4 import BeautifulSoup ``` 接下来,我们需要定义一个函数,将要的网址作为参数传入函数中。在函数中,我们使用"requests"库发送网络请求,获网页的内容,然后使用"beautifulsoup4"库对网页内容进行解析。 ``` def crawl_baidu_images(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') ``` 接下来,我们需要通过分析百度图片网站的源代码,找到图片所在的标签和属性,然后使用"beautifulsoup4"库提供的方法来选和提图片。 ``` images = soup.find_all('img', class_='img-hover') for image in images: print(image['src']) ``` 最后,我们可以调用上述定义的函数,并传入百度图片网站的网址,来执行操作。 ``` crawl_baidu_images('http://image.baidu.com/') ``` 以上就是使用Python关键字实现百度图片的简单示例代码。当然,实际的爬虫代码可能更加复杂,需要处理网页解析、数据存储等更多的细节。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值