今天上课无聊就简简单单写了个爬虫小程序,和大家分享一下。好啦,开始吧!
第一步,导入爬虫所需的模块
import requests
import re
import os
requests模块用于请求网页,re模块用于正则表达式的书写,os模块用于创建文件夹。
第二步,请求网页
res=requests.get('https://pvp.qq.com/web201605/herolist.shtml')
res.encoding=('gbk')
html=res.text
使用requests的get方法请求URL,并将内容传给res。浏览器审查元素发现网页编码为下图:
所以为了防止乱码,使用encoding将网页重新编码,再将res转成text传给html。
第三步,使用正则表达式匹配出图片链接并创建相应文件夹。
我们发现,图片的链接在网页中是这样的:
好了,写一个简单的正则表达式,提取出里边的链接。创建hero文件夹保存图片。
r=re.findall(r'src="(.*?)" width',html)
dir_name=&#