mysql百度图片爬虫_爬虫爬取百度搜狗图片持久化存储

1.图片下载

# 百度图片:http://image.baidu.com/

# 搜狗图片:https://pic.sogou.com/

# 图片爬取:

1).寻找图片下载的url: elements与network抓包

2).浏览器中访问url, 进行验证

3).编写代码获取url

4).请求url地址, 获取二进制流

5).将二进制流写入文件

# 百度图片:

import time

import requests

from lxml import etree

from selenium import webdriver

# 实例化浏览器对象

browser = webdriver.Chrome('./chromedriver.exe')

# 访问网页并操控网页元素获取搜索结果

browser.get('http://image.baidu.com/')

input_tag = browser.find_element_by_id('kw')

input_tag.send_keys('乔碧萝')

search_button = browser.find_element_by_class_name('s_search')

search_button.click()

# 通过js实现鼠标向下滚动, 获取更多页面源码

js = 'window.scrollTo(0, document.body.scrollHeight)'

for times in range(3):

browser.execute_script(js)

time.sleep(3)

html = browser.page_source

# 解析数据获取图片连接:

tree = etree.HTML(html)

url_list = tree.xpath('//div[@id="imgid"]/div/ul/li/@data-objurl')

for img_url in url_list:

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

}

content = requests.get(url=img_url, headers=he

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值