(1)背景:
在训练模型的时候,使用到的文档数量很多,为了减少后期的负荷,将文档按照大小过滤(比如,size小于10KB的文件删掉)
(2)代码:
import os
folder = r"/tmp/test" #指定文件夹
for dirpath,dirnames,filenames in os.walk(folder):
for file in filenames:
file_tmp = os.path.join(dirpath, file)
file_size = os.path.getsize(file_tmp)
if(file_size < 10240): #size<10KB的话,删除文件
os.remove(file_tmp)