创建了getImg()函数,用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式:
re.compile() 可以把正则表达式编译成一个正则表达式对象.
re.findall() 方法读取html 中包含 imgre(正则表达式)的数据。
运行脚本将得到整个页面中包含图片的URL地址。
import re
import urllib.request
import chardet #需要导入这个模块,检测编码格式
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getImg(html