2017.3.31毕设之 python小白第四课----去除txt文件中特殊字符以及提取tab键分隔的字符串

本文介绍了如何使用Python去除TXT文件中的单双引号,并利用tab键分隔的三元组,提取出每个三元组的第一个和最后一个实体,分别保存到两个不同的TXT文件中。
摘要由CSDN通过智能技术生成

1、去除txt文件中的单双引号

2、tab键将三元组键分隔开,每个三元组为一行,提取出第一个实体和最后一个实体,并将txt中所有三元组的第一个实体存入E:\xx\baike_chouqu_star_clean.txt,最后一个实体存入E:\xx\baike_chouqu_end_clean.txt

import datetime
import re

start_time = datetime.datetime.now()
print("start time:", start_time)
count = 1
with open(r'E:\xx\baike_triples.txt', encoding='utf-8',mode='r')as f:
    with open(r'E:\xx\baike_chouqu_star_clean.txt', encoding='utf-8', mode='w')as wt:
        with open(r'E:\xx\baike_chouqu_end_clean.txt', encoding='utf-8', mode='w')as wt1:
            for data in f:
                if count == 100:    #用于测试,由于数据量较大,只执行100行数据,之后可以注释掉
                    break
                count += 1
                result = re.sub('"|“|”|</ a>|<a>|★|\'',' ',data)#去除特殊
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值