手把手教你用Python实现批量文件的压缩处理

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

近乡情更怯,不敢问来人。

一、前言

大家好,我是崔艳飞。接到项目求助,需要对上千个文件夹中的文件进行压缩处理,并要删除源文件,只保留压缩后的压缩文件,数据量大,手动完成耗时耗力,用Python处理再合适不过了。

二、项目目标

批量对文件夹的内容进行压缩处理,满足客户要求。

三、项目准备

软件:PyCharm

需要的库:os, shutil,zipfile

四、项目分析

1)如何读取源文件?

利用OS库,获取文件夹名list,利用for循环,轻松拿到要压缩的源文件。

2)如何进行压缩处理?

利用zipfile库中的zipfile.ZipFile()对获取到的文件进行压缩处理。

3)如何删除源文件?

先利用os库的remove()删除文件,再利用shutil库的rmtree()删除空文件夹。

五、项目实现

1、第一步导入需要的三个库
import os as os


import shutil


import zipfile
2、第二步定义删除文件函数和压缩文件函数
def del_(rootdir):
    filelist = []
    filelist = os.listdir(rootdir)  # 列出该目录下的所有文件名
    for f in filelist:
        filepath = os.path.join(rootdir, f)  # 将文件名映射成绝对路劲
        if os.path.isfile(filepath):  # 判断该文件是否为文件或者文件夹
            os.remove(filepath)  # 若为文件,则直接删除
        elif os.path.isdir(filepath):
            shutil.rmtree(filepath, True)  # 若为文件夹,则删除该文件夹及文件夹内所有文件
    shutil.rmtree(rootdir, True)
def zipDir(dirpath,outFullName):
    zip = zipfile.ZipFile(outFullName,"w",zipfile.ZIP_DEFLATED)
    for path,dirnames,filenames in os.walk(dirpath):
        # 去掉目标跟路径,只对目标文件夹下边的文件及文件夹进行压缩
        fpath = path.replace(dirpath,'')


        for filename in filenames:
            zip.write(os.path.join(path,filename),os.path.join(fpath,filename))
    zip.close()
3、第三步创建主函数
def main():
    path_end = 'D:/a/h/'
    date= os.listdir(path_end)
    # 获取目标文件夹所有文件夹名列表
    for f in date:
        ljbc='D:/a/h/'+f+'/'+'查询信息.zip'
        ljbc2 = 'D:/a/h/' + f + '/' + '下发修改.zip'
        #以上两行是创建压缩后的文件名
        ljcx='D:/a/h/'+f+'/查询信息'
        ljxf = 'D:/a/h/' + f + '/下发修改'
        #以上两行是要压缩的源文件
        zipDir(ljcx,ljbc)
        zipDir(ljxf, ljbc2)
        del_(ljcx)
        del_(ljxf)
        
if __name__ == '__main__':
    main()

六、效果展示

1、处理后的文件夹:

2、处理后的文件夹内的压缩文件:

七、总结

本文介绍了如何利用Python对大批量的文件进行批量压缩处理,其实就是几行语句就能实现,程序写好后,不到1分钟就能完成1个人1天也不可能完成的任务。人生苦短,要用Python!

最后需要本文项目代码的小伙伴,请在公众号后台回复“文件压缩”关键字进行获取,如果在运行过程中有遇到任何问题,请随时留言或者加小编好友,小编看到会帮助大家解决bug噢!

------------------- End -------------------

往期精彩文章推荐:

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

  • 5
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
好的,我了解您的要求,下面是回答: Apriori算法是一种常用的关联规则挖掘算法,用于发现数据集中的频繁项集。其原理是通过迭代的方式不断削减候选项集的大小,找到所有满足最小支持度要求的频繁项集。 Apriori算法的步骤如下: 1. 初始化:找到所有单项集的支持度,并筛选出支持度大于等于最小支持度的频繁项集; 2. 迭代:根据频繁项集生成候选项集,并筛选出支持度大于等于最小支持度的频繁项集; 3. 终止条件:重复步骤2,直到无法再生成新的频繁项集。 下面是用Python实现Apriori算法的代码: ```python def loadDataSet(): return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]] def createC1(dataSet): C1 = [] for transaction in dataSet: for item in transaction: if not [item] in C1: C1.append([item]) C1.sort() return list(map(frozenset, C1)) def scanD(D, Ck, minSupport): ssCnt = {} for tid in D: for can in Ck: if can.issubset(tid): if not can in ssCnt: ssCnt[can] = 1 else: ssCnt[can] += 1 numItems = float(len(D)) retList = [] supportData = {} for key in ssCnt: support = ssCnt[key] / numItems if support >= minSupport: retList.insert(0, key) supportData[key] = support return retList, supportData def aprioriGen(Lk, k): retList = [] lenLk = len(Lk) for i in range(lenLk): for j in range(i+1, lenLk): L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2] L1.sort(); L2.sort() if L1 == L2: retList.append(Lk[i] | Lk[j]) return retList def apriori(dataSet, minSupport = 0.5): C1 = createC1(dataSet) D = list(map(set, dataSet)) L1, supportData = scanD(D, C1, minSupport) L = [L1] k = 2 while (len(L[k-2]) > 0): Ck = aprioriGen(L[k-2], k) Lk, supK = scanD(D, Ck, minSupport) supportData.update(supK) L.append(Lk) k += 1 return L, supportData ``` 以上就是用Python实现Apriori算法的代码,您可以根据自己的需求进行调整和修改。
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值