python爬取百度图片——翻页式网站爬取

最新推荐文章于 2021-11-15 11:34:21 发布

置顶 weixin_40902563

最新推荐文章于 2021-11-15 11:34:21 发布

阅读量411

点赞数

分类专栏： python 文章标签： python爬虫

本文链接：https://blog.csdn.net/weixin_40902563/article/details/100086949

版权

python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

小编大约于这个月月初写的这一份代码，但很不幸，大概20号，再次找百度图片翻页流的时候，发现是瀑布流且回不去了，还好代码里面留了翻页流的网址

所以，现在来分享给大家。

语言：python3.6

库：requests， re， urllib

除了requests需要pip install之外，其他两个是python自带的模块，直接调用即可。

代码中的原网址：https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=小姐姐&pn=0

直接复制网址可以浏览百度图片翻页流的小姐姐的照片的第一页。好了，代码在下面，详情请见注释。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
# Author:water_chen


import requests
import re
from urllib import request

def get_picture_list(keyword,biggest_pages):
    all_picture_list = []
    for page in range(biggest_pages):
　　　　 # 每一页20张图片， 所以翻页的是0 20 40 80 这样变化的
        page = page * 20
        url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={}&pn={}'.format(keyword, page)
　　　　 # 
        html = requests.get(url).content.decode('utf-8')

        picture_list = re.findall('{"thumbURL":"(.*?)",', html)# 用正则匹配，获得图片的url

        all_picture_list.extend(picture_list)
　　all_picture_list = set(all_picture_list)# 因为第二页也有后面两页的图片，所以要去重
　　download_picture(all_picture_list)
# 下载图片
def download_picture(all_picture_list):
    for i, pic_url in enumerate(all_picture_list):
        print(i)
　　　　　# 在代码的路径下，新建一个picture，图片会由urlretrieve函数保存到本地
        string = 'picture/{}.jpg'.format(str(i + 1))
        request.urlretrieve(pic_url, string)
# 开始函数
def start():
　　 # 你想搜索的关键词
    keyword = '小姐姐'
　　 # 你想搜索的页数
    biggest_pages = 10
    get_picture_list(keyword, biggest_pages)
if __name__ == '__main__':
    start()

大家赶快保存这个翻页流的网址，现在的百度图片是瀑布流，如果要爬，就需要selenium对网页进行滚动，比较麻烦，这个代码能够比较容易的获取。

如果有用，请大家点个赞，谢谢。博客园地址：https://www.cnblogs.com/chenyuan404/p/10192758.html

weixin_40902563

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python爬取百度图片——翻页式网站爬取

小编大约于这个月月初写的这一份代码，但很不幸，大概20号，再次找百度图片翻页流的时候，发现是瀑布流且回不去了，还好代码里面留了翻页流的网址所以，现在来分享给大家。语言：python3.6库：requests， re， urllib除了requests需要pip install之外，其他两个是python自带的模块，直接调用即可。代码中的原网址：https://image.baidu.co...
复制链接

扫一扫