![00685a7719cec3ad4e81a30b152bd529.png](https://img-blog.csdnimg.cn/img_convert/00685a7719cec3ad4e81a30b152bd529.png)
因为要做一项验证,苦于没有合适的数据,所以打算在网上爬一些。
在网上找了一些代码,也一一试过,这里放出效果最好的代码,是从百度上爬取图像。大家可以根据自己的需求试一下。
# coding=utf-8
"""根据搜索词下载百度图片"""
import re
import sys
import urllib
import os
import requests
def get_onepage_urls(onepageurl):
"""获取单个翻页的所有图片的urls+当前翻页的下一翻页的url"""
if not onepageurl:
print('已到最后一页, 结束')
return [], ''
try:
html = requests.get(onepageurl).text
except Exception as e:
print(e)
pic_urls = []
fanye_url = ''
return pic_urls, fanye_url
pic_urls = re.findall('"objURL":"(.*?)",', html, re.S)
fanye_urls &