Python中文文件读写&参数传递

 

文本一些冗余标点符号清洗

#encoding=utf-8
import sys  
import re
outfile = 'result.txt'
file = sys.argv[1]     
if len(sys.argv) > 2:
    outfile = sys.argv[2]
print("Deading" + file + " now...\n")

lines = []
n = 0
with open(file, 'r', encoding='UTF-8') as f:    #打开文件
    for line in f:             
        line.strip() #去掉换行符
        line,nu = re.subn(r'`','\'',line)
        if nu > 0 :
            print("eedddddd"+str(nu))
        line,nu = re.subn(r'"\s{0,}"|\'\s{0,}"|\'\s{0,}\'|\'\s{0,}"','"',line)
        ch_en = re.split(r"\|\|\|", line)
        ch = ch_en[0]
        en = ch_en[1]
        
        #if():
            
        lines.append(ch + '|||' + en +'\n')
        

with open(outfile, 'w', encoding='utf-8') as g:       #写文件
    for line in lines:
        g.write(line)
# for line in lines:
    # try:
        # print(line)
    # except UnicodeEncodeError as e:
        # print('UnicodeEncodeError')
        # print("\n      Please open the " + outfile + "(current path)!!")
    

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值