在爬虫时,有时候任务异常终止,需要查看是否已经下载了文件,避免重复工作,提高效率。
上网搜了一下,常使用的几种方法:
- try + open 暴力打开,打不开except
try:
f =open()
f.close()
except:
# 继续爬虫
- 使用os模块中的os.path.exists()
import os
if os.path.exists(test_file.txt):# 如果存在则返回True
# 继续爬虫
- 使用pathlib
使用pathlib需要先使用文件路径来创建path对象。此路径可以是文件名或目录路径。
path = pathlib.Path("path/file")
path.is_file()
第三种方法还没使用,第一种方法对于PDF打不太开,就使用了第二种方法。