需求
获取斗图啦网站最新表情的信息,并下载图片到指定的文件夹。
为了提高下载速度可以使用多线程的方式操作。
获取需要用到的url
通过对网站url(https://www.doutula.com/photo/list/?page=1)的分析,可得page= 后的数字控制页数,那么就可以通过控制这个数字来获得每一页表情包的url
for x in range(1,11):
url = 'https://www.doutula.com/photo/list/?page=%d' % x
获取要爬取图片的信息
在获取图片链接的时候要注意,图片真正的链接应该是在 data-original 之后,而不是 src之后
在Windows操作系统下,部分字符不能当作文件名,所以要将部分特殊字符替换掉,如:?。!等
response = requests.get(url,headers=self.headers)
text = response.text
html = etree.HTML(text)
imgs = html.xpath('//div[@class="page-content text-center"]//img[@class!="gif"]')
for img in imgs:
img_url = img.get('data-original')
#获取图片名字
alt = img.get('alt')
alt = re.sub(r'[\??\.,。!!\*]','',alt)
#获取图片的后缀名
suffix = os.path.splitext(img_url)[