百度爬取100张狗狗图片

最新推荐文章于 2021-11-19 16:29:47 发布

Anastasia_li

最新推荐文章于 2021-11-19 16:29:47 发布

阅读量905

点赞数

分类专栏：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Anastasia_li/article/details/108877389

版权

网络爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

因为百度上狗狗图片是动态加载的,用requests爬取到的图片只有30张,所以去我选择用selenium.为了方便分析网页代码,我习惯将代码写入文件,方便查看异常,另外还可以避免重复爬取被拉黑.代码如下:

import requests
from lxml import etree
from selenium import webdriver

url = "https://image.baidu.com/search/index?tn=baiduimage&word=100%D5%C5%B9%B7%CD%BC%C6%AC"
driver = webdriver.Chrome(r"C:\Users\ling li\AppData\Local\Google\Chrome\Application\chromedriver.exe")
driver.get(url)
text = driver.execute_script("return document.documentElement.outerHTML")
with open("狗图片网页代码2","w",encoding="utf-8") as f:
    f.write(text)
# with open("狗图片网页代码2",encoding="utf-8") as f:
#     text = f.read()
tree = etree.HTML(text)

url_list = []
i = 0
for each in tree.xpath('//div[@class="imgbox"]//a//img'):
    i += 1
    if i<101:
        url_list.append((each.xpath("./@data-imgurl"))[0])
        img_url = each.xpath("./@data-imgurl")[0]
        response = requests.get(img_url)
        with open("dog/狗狗%d.jpg"%i,"wb") as f:
            f.write(response.content)
print(len(url_list))
print(url_list)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Anastasia_li CSDN认证博客专家 CSDN认证企业博客

码龄4年

89: 原创

38万+: 周排名

3万+: 总排名

11万+: 访问

: 等级

1074: 积分

122: 粉丝

53: 获赞

26: 评论

199: 收藏

私信

关注

热门文章

分类专栏

CUDA 1篇
python 1篇
linux 6篇
C++ 2篇
自动化 24篇
shell 1篇
遇到的问题记录
GPU
计算机网络 9篇
数据结构与算法 10篇
前端 4篇
git 1篇
VUE
网络协议
Windows
数据库 3篇
django 3篇
PyQt5 2篇
网页
mac相关 3篇
tensorflow 4篇
python2.7 1篇
C语言 2篇
网络爬虫 3篇
tornado 1篇

最新评论

关于ios自动化python模块wda的两种报错记录
pudgewmy: 安装最新的facebook-wda就可以，关键就是这句话
docker中Ubuntu安装Qt笔记
一只小小加菲猫: 各种环境安装qt 1、mac：x86、M1/M2、docker Parallels Desktop、VMware Fusion、VirtualBox、苹果的M1和M2芯片采用的是ARM架构，而不是传统的x86架构。这意味着它们原生不支持直接运行x86架构的程序代码。不过，苹果为M1和M2芯片提供了名为Rosetta 2的翻译层技术，这项技术可以在安装x86_64应用程序时自动转换（翻译）这些程序，使其能够在ARM架构的Mac上运行。搭载M1或M2芯片的Mac必须运行macOS 11 Big Sur或更高版本，才能使用Rosetta 2。 2、windows：x86、WSL2、docker VMware Workstation、Virtual PC、VirtualBox WSL 1是基于Windows的兼容层，它允许Linux二进制文件在Windows上运行，但不提供完整的Linux内核。 WSL 2引入了一个真实的Linux内核，它提供了完整的系统调用兼容性，这意味着它几乎可以运行任何Linux应用程序，可以安装cuda。 WSL 2需要Windows 10版本1903或更高版本，并启用“虚拟机平台”可选功能。 3、Linux：x86-GUI、aarch64-GUI、x86-server、aarch64-server、docker、KVM、 VMware vSphere、Hyper-V、VirtualBox 对于server版的linux服务器选择支持x11协议的连接工具：mobaxterm、Xshell、SecureCRT、FinalShell、VNC、XDMCP等。类似MobaXterm的客户端工具，可以支持X11转发，允许用户在远程服务器上运行图形界面应用程序并显示在本地机器上。使用这些工具时，通常需要在本地机器上安装一个X11服务器，如Xming（仅限Windows）、VcXsrv（Windows和Mac）或XQuartz（Mac）。这样，远程服务器上的X客户端应用程序就可以通过SSH隧道将图形输出转发到本地X11服务器上显示。
Mysql中复制数据库的两种方法
兴于诗: 纠正：mysqldump -h [ip] -u [用户名] -p [数据库] > xxxx.sql
python中的overload
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
解决WebDriverAgent老是自动删除的问题
泡芙好吃吗: 怎么样具体编译呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。