mysql百度图片爬虫_爬虫爬取百度搜狗图片持久化存储

最新推荐文章于 2023-01-05 11:27:49 发布

耗奇心

最新推荐文章于 2023-01-05 11:27:49 发布

阅读量146

点赞数

文章标签： mysql百度图片爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36249942/article/details/113678992

版权

1.图片下载

# 百度图片:http://image.baidu.com/

# 搜狗图片:https://pic.sogou.com/

# 图片爬取:

1).寻找图片下载的url: elements与network抓包

2).浏览器中访问url, 进行验证

3).编写代码获取url

4).请求url地址, 获取二进制流

5).将二进制流写入文件

# 百度图片:

import time

import requests

from lxml import etree

from selenium import webdriver

# 实例化浏览器对象

browser = webdriver.Chrome('./chromedriver.exe')

# 访问网页并操控网页元素获取搜索结果

browser.get('http://image.baidu.com/')

input_tag = browser.find_element_by_id('kw')

input_tag.send_keys('乔碧萝')

search_button = browser.find_element_by_class_name('s_search')

search_button.click()

# 通过js实现鼠标向下滚动, 获取更多页面源码

js = 'window.scrollTo(0, document.body.scrollHeight)'

for times in range(3):

browser.execute_script(js)

time.sleep(3)

html = browser.page_source

# 解析数据获取图片连接:

tree = etree.HTML(html)

url_list = tree.xpath('//div[@id="imgid"]/div/ul/li/@data-objurl')

for img_url in url_list:

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

}

content = requests.get(url=img_url, headers=he

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mysql百度图片爬虫_爬虫爬取百度搜狗图片持久化存储

1.图片下载# 百度图片:http://image.baidu.com/# 搜狗图片:https://pic.sogou.com/# 图片爬取:1).寻找图片下载的url: elements与network抓包2).浏览器中访问url, 进行验证3).编写代码获取url4).请求url地址, 获取二进制流5).将二进制流写入文件# 百度图片:import timeimport requestsfr...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。