下面展示一些 脚本代码
。
import urllib.request as u #导入urllib.requset库起别名为u
import re #导入re库---正则表达式
url = "http://www.****.cn/view/223822/65568.html" #导入url为某心仪漫画的页面
def get_html(url): #为url添加请求头
urlhead = u.Request(url) #利用.Request处理url并赋值给urlhead
urlhead.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0")
#将火狐上获取的请求头通过.add_header方法添加到urldead中
response = u.urlopen(urlhead) #通过.urlopen的方法对urlhead进行访问,并将响应报文存储在response中
html = response.read() #将response的内容读取出来传入html
return html
def get_imagelist(html): #整理网页源码,筛选图片地址
imagelist = re.findall("http://i-cdn.ibuka.cn/pics/223822/65568/\w{13}.jpg",str(html,encoding="utf8"))
#通过正则表达式进行url筛选
return imagelist
def down_image(imagelist): #下载图片并对图片进行命名
num = 0 #num定义一个变量
for i in imagelist: #进行取值遍历,用数字来命名图片
num +=1
numstr = str(num)
imagebytes = get_html(i)
with open("%s.jpg" %numstr.zfill(4),"wb") as f: #.zfill(4)用零自动填充的位数
f.write(imagebytes)
if __name__ == "__main__":
html = get_html(url)
#print(html)
imagelist = get_imagelist(html)
#print(imagelist)
down_image(imagelist)
url = http://www.****.cn/view/223822/65568.html