Python批处理zip压缩文件

最新推荐文章于 2024-08-17 22:35:31 发布

前进吧-程序员

最新推荐文章于 2024-08-17 22:35:31 发布

阅读量1k

点赞数

分类专栏： python源代码

本文链接：https://blog.csdn.net/u011233383/article/details/80618818

版权

python源代码专栏收录该内容

17 篇文章 1 订阅

订阅专栏

问题引入

自己家的领导接了一个领导的活，需要统计话费账单，话费记录是一个文件夹的zip文件，每一个zip文件对应了一个月的话费，每一个zip文件下是该公司每一个号码的当月通话记录。

问题描述

数据存储在一个文件夹下
文件夹下对应12个月的话费记录，共12个zip文件
每一个zip文件，对应了很多压缩了的通话记录文件
每一个通话记录文件对应了一个号码的话费

Note: 为了代码演示，在文件夹下有一个月的话费文件。但是，代码按照12个月的处理。

话费文件格式

话费文件的名字是电话号码，文件的格式如下图，去除了敏感信息，以及一些其他信息：
该文件是从zip文件解压出来的一个示例文件。
这里写图片描述

分析过程

首先可以发现，文件的名字是电话号码，可以在名字上提取电话号码，文件的第一行也是电话号码，可以使用每一个文件第一行的数据提取电话号码。
文件的正文也就是通话记录会从第七行开始，前边的文件头部分是话费文件的休市部分，不予以关注。
我们需要的信息是统计话费总额，也就是基本通话费，信息费以及长途费，三项，可以使用正则表达式模块。
由于文件存储在zip文件夹下，需要处理zip文件的模块zipfile
由于存在12个zip文件，需要os.walk获取到所有符合条件的文件。
生成一个统计结果，样式——每个月份+每个号码+话费总额。
由于存在中文，需要考虑编码格式问题。

代码

#!/usr/bin/python
# -*- coding: UTF-8 -*-
'''
Created on Jun 7, 2018

@author: qcq
'''
import os
import re
import zipfile
import StringIO
# 下述三行是为了解决编码问题
import sys
reload(sys)
sys.setdefaultencoding('utf8')

file_path = r'/Users/qcq/Downloads/bills'
file_out = r'/Users/qcq/Downloads/qcq.txt'

# 正则表达式匹配基本话费，信息费，长途费，三个条目。
pattern = re.compile(r'\d+\.\d+')
phone_number_line = 1 #标记文件的第一行是电话号码行
real_bill_line = 7 # 正文开始

'''
1. 代码第一部分，首先迭代给定的文件目录，取得需要处理的zip文件，存储在一个列表里面，为后边的文件处理服务。此处主要是使用os.walk来迭代目录，然后使用os.path.join连接两个目录。
'''
file_name_list = []
for dirpath, dirnames, filenames in os.walk(file_path):
    for file_name in filenames:
        if file_name.endswith('.zip'):
            temp_path = os.path.join(dirpath, file_name)
            file_name_list.append(temp_path)
'''
2. 对获取到的上述文件，进行了排序使输出的顺序有序。
'''            
sorted(file_name_list)
'''
3. 正文部分
'''
with open(file_out, 'w') as f_out:
    for zip_file in file_name_list:
        with zipfile.ZipFile(zip_file) as f:
            data = {}
            for nameOfFileUnderZip in f.namelist():
                count = 1
                contents = StringIO.StringIO(f.read(nameOfFileUnderZip))
                sum_all = 0.0
                for line in contents:
                    if count > phone_number_line and count < real_bill_line:
                        count += 1
                        continue
                    if phone_number_line == count:
                        phone_number = line.split(u'：')[1]
                        count += 1
                        continue
                    sum_all += sum(map(float, pattern.findall(line)))
                data[phone_number.strip()]=sum_all
            f_out.write(zip_file + '\n')
            for key, value in sorted(data.items(), key=lambda d:d[0]) :
                f_out.write(key + ':' + str(value) + '\n')