题目:使用标准库urllib爬取“http://news.pdsu.edu.cn/info/1005/31269.htm”平顶山学院新闻网上的图片,要求:保存到F盘pic目录中,文件名称命名规则为“本人姓名”+ “_图片编号”,如姓名为张三的第一张图片命名为“张三_1.jpg”。
from re import findall
from urllib.request import urlopen
url = "http://news.pdsu.edu.cn/info/1005/31269.htm"
with urlopen(url) as fp:
content = fp.read().decode("utf-8")
pattern = '<img width="500" src="(.+?)"'
result = findall(pattern,content)
path = 'D:/pic/'
xm = "赵琦"
for index,item in enumerate(result):
urls = "http://news.pdsu.edu.cn/" + item
with urlopen(str(urls)) as fp:
with open(path+xm+"_"+str(index+1)+".jpg","wb") as fp1:
fp1.write(fp.read())
第一道题没什么需要强调的,urllib是标准库,无需安装。</