这是我的第一个爬虫,选择爬这个网站是因为,他URL特别有规律,不是因为他的图片,不是因为图片,不是。。。
首先他每套图的第一张地址如下
http://www.mmjpg.com/mm/1
图片的地址如下
http://img.mmjpg.com/2015/1/1.jpg
图片的地址的URL里面有年份,因为不知道那些图片是哪一年发的,所以不方便把所有的图片都爬下来
因此我从套图的地址中找到第一张图片的图片地址
然后将图片名每次加一,直到最后一张(可以从套图的地址中找到一共有多少张)
# 得到一共有多少张图
def get_img_sum_num(self, img_url):
fa = fake_useragent.UserAgent()
headers = {
'User-Agent': fa.random,