import requests # 爬虫中最常用的发起请求的第三方库——requests
import re
from urllib.request import urlretrieve
'''
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
在Python中有很多库可以用来抓取网页,例如:urllib2。urllib2在python3.x中被改为urllib.request。
可使用urlretrieve(url, filename)保存下载的文件
'''
headers = {'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
'AppleWebKit/537.36(KHTML, like Gecko) Chrome/70.0.3538.25 Mobile Safari/537.36'}
# PEP 8: E128 continuation line under-indented for visual indent显示缩进的延续行
res = requests.get('http://www.people.com.cn/', headers=headers) # 获取网页信息
web = r'http://www.people.com.cn'
pics = re.findall('<img src="/.*?\.png"', res.text) # 分析网页源码,列出正则表达式。res.text:网页内容的字符串形式
list1 = []
with open('picture.txt', 'w') as f: # 将网页中的图片链接保存至文件
for p in pics:
url = web + p.lstrip('<img src="').rstrip('"') # lstrip():去掉字符串左边的(头部)
list1.append(url)
print(url) # 在控制台打印图片的链接信息
f.write(url+'\n')
for i in range(len(list1)): # 将网页中的图片下载至文件夹
filename = 'NO.' + str(i) + '.png'
pic = list1[i]
urlretrieve(pic, filename) # 下载图片至本地文件夹