爬取搜索出来的所有“中东人”的图片:
先看一下源代码,找到存放图片链接的地方,在源代码最下面的部分:
先说一下思路:
构造url列表=》依次爬取每个页面=》先在网页源代码中找到存放图片链接的地方=》获取到这一地方的文本=》正则匹配出每个页面中每张图片的链接=》存储每张图片
来看爬取的代码:
import requests
import re
from bs4 import BeautifulSoup
address = "https://www.quanjing.com/category/1286521/"
url_list = [] #用于存储,每个页面的url列表
pipei = re.compile('
# 构造url
def get_url_list():
for i in range(1, 3): #规定爬取到的页数,这里爬取到第二页
url = address + str(i) + '.html'
url_list.append(url)
return url_list
def run():
y = 1
i = 0
for url in get_url_list(): #这个循环用于依次爬取页面
html = requests.get(url=url).text #请求