首先事先声明,这个脚本只是最基础的练习脚本,个人学习用的,有什么不对的,请各位大佬赐教,有什么好的方法,也烦请大佬指出
代码如下:
import re
import requests
import os
def download(file,url):
with open(file,mode='wb') as fw:
fw.write(requests.get(url).content)
def get_url(fname,patt):
result = []
patt_obj = re.compile(patt) # 编译正则表达式 patt_obj: 正则对象,可用于匹配数据
with open(fname, mode="rb") as fr:
for item in fr.readlines():
data = patt_obj.search(item) # 匹配图片链接
if data != None: # 匹配成功
result.append(data.group())
return result
if __name__ == '__main__':
url = r"想要爬的网页"
file = r"自己想要保存的路径"
pic_patt = br"(http|https)://[\w\./-]+\.(jpg|jpeg|png)"
download(file,url)
result = []
pic_url = get_url(file,pic_patt)
print(pic_url)
for item in pic_url :
str_obj = item.decode('utf-8')
result.append(str_obj)
for item in result:
download( "自己想要保存的路径"+os.path.basename(item),item)
接下来对各部分进行解析,也算是对自己学习的巩固。
这段代码中,最重要的就是以下两个方法:
def download(file,url):
with open(file,mode='wb') as fw:
fw.write(requests.get(url).content)
def get_url(fname,patt):
result = []
patt_obj = re.compile(patt) # 编译正则表达式 patt_obj: 正则对象,可用于匹配数据
with open(fname, mode="rb") as fr:
for item in fr.readlines():
data = patt_obj.search(item) # 匹配图片链接
if data != None: # 匹配成功
result.append(data.group())
return result
download方法,需要导入两个参数,file是自己想要保存的文件的路径,url是想要获取内容的网址,在使用的方法中需要注意,requests.get(url).content中的content是获取原始的二进制内容,这与打开文件的mode一定要对应,因此是"wb"及在get_url方法中用的是"rb",为什么使用二进制呢,因为这对于处理图片、视频来说,相对好用,如果是文本,建议是使用text(这个我还没获取过文字,可以试试看)
get_url方法,需要导入刚才获取到内容的文件的路径以及规则
url = r"想要爬的网页"
file = r"自己想要保存的路径"
pic_patt = br"(http|https)://[\w\./-]+\.(jpg|jpeg|png)"
为什么在url和file后面加r呢,因为我输入路劲的时候有一些反斜杠,在运行的时候程序会无法识别,解决的方法我知道的有两个,一个是r,一个是"\"反斜杠转义字符,然后仔细看规则,也会发现会有一个“b”,这个是把规则转化成二进制,因为我获取的文件中的源代码是以二进制形式获取的,所以匹配也得用相同的格式,不然会报一个“not bytes”的错,这个需要注意一下
别的内容我相信各位大哥也看得懂,如果有什么不明白可以留言,有什么好方法也可以留言