由于个人水平暂时有限,先写成这样,大家可以参考一下。
本教程分为两部分:
1.获取图片的路径,存储到指定的文本文件中
2.调用上述的文本,进行图片的下载
第一部分:
1.分析网页源码找到规律 框里的http://…jpg 就是我们要提取的图片地址
2.附上代码
import urllib.request
import re
url = "http://www.27270.com/ent/meinvtupian/" #获取url
pat = 'http://t1.27270.com/uploads/tu(.*?)jpg' #匹配规则
data = urllib.request.urlopen(url).read().decode("gb2312") #读取网页的内容并解码
relut = re.compile(pat).findall(data) #会返回一个列表
file = open(r"C:\Users\123\urltu.txt", "w", encoding="gb2312") #这里我定义了一个自己的存储路径,大家可以根据自己的路径修改
for i in relut:
file.write("http://t1.27270.com/uploads/tu") #先写进开头
file.write(i) #将提取的内容写入文件
file.write("jpg") # 将格式写入
file.write("\n") #表示换行
3.进入我们指定的目录查看文件
第二部分:
通过上面的文件内容进行图片的下载 需要用到 .urlretrieve() 将文件下载到本地
话不多说,附上代码
import os
from urllib import request
read = open(r"C:\Users\123\urltu.txt", "r", encoding="gb2312")
s = read.readlines()
print("正在爬取,请稍后!")
q = 1 #设置图片名称从1开始
os.chdir(r"E:\美女图片") #指定存储路径
for i in s:
request.urlretrieve(i, filename=str(q)+".jpg") # i为图片地址,filename是图片的名称
q=q+1
print("爬取完成!")
最后,效果图奉上