Python学习:遍历文件作批量处理

在学习机器学习实战的时候,发现网上下载的数据集存在问题,编码格式不对,但是文件夹有点多操作起来不太方便,所以这里就写了一个脚本来批量修改txt文件的编码格式

__author__ = 'sym'
__date__ = '19-11-26'

import os

def repair(rootDir):
    for root,dirs,files in os.walk(rootDir):
        for file in files:
            p_rootdir = os.path.join(root, file)
            print(p_rootdir)
            os.system("iconv %s -f US-ASCII -t UTF-8 -o %s" % (p_rootdir,p_rootdir))   # 这里使用了shell命令
        for dir in dirs:
            repair(dir)


if __name__ == '__main__':
    rootdir = '/home/sym/PycharmProjects/machinelearninginaction/Ch04/email/spam'  # 指定要修改权限的目录
    repair(rootdir)

其中for root,dirs,files in os.walk(rootDir):这一句作用是遍历文件,各变量含义如下:

rootDir代表需要遍历的根文件夹
root表示正在遍历的文件夹的名字(根/子)
dirs记录正在遍历的文件夹下的子文件夹集合
files

记录正在遍历的文件夹中的文件集合

找到文件后批量使用Shell命令即可。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值