读取存储txt文件

1、数据格式

1-RCV-00O
1-BMSR-J006-04-Z3-MWH
1-2000-200-SB-H5006B
1-RC02-11A-MA
0-SAP3VA
1-DN-20CR
3-A-00VL

2、加载类库
import csv
3、加载数据、处理数据(小文件)
temp=[]
with open('xxxxx.txt',encoding='utf-8') as f:
    f_csv = csv.reader(f)
    for line in f_csv:
        temp.append(line[0]+'@@mmd')

或者

temp=[]
with open('中英文映射表.txt',encoding='utf-8') as f:
    f_csv = f.readlines()
    for line in f_csv:
        temp.append(line)
4、加载数据、处理数据(大文件2g以上)

######下面代码的功能是将一个2g以上的大文件拆分成多个小文件。

with open('CCKS/PKUBASE/pkubase-complete.txt','rb') as f:
    sum = 0
    temp = []
    for line in f :
        sum+=1
        temp.append(line)
        if sum%10000000==0 or line == b'<\xe4\xba\xba\xe4\xb8\xba\xe6\x80\xa7\xe7\x9a\xae\xe7\x82\x8e>\t<openkg_uri>\t"http://www.openkg.cn/COVID-19/wiki/resource/R11270" .':
            with open('CCKS/PKUBASE/pkubase-complete_{}.txt'.format(sum//10000000),'wb') as file_handle:   # .txt可以不自己新建,代码会自动新建
                for line in temp:
                    file_handle.write(line)     # 写入
                temp = []

这样读取有一个难点:我们需要知道最后一行是什么,保证能够保存所有的数据。
下面的代码解决了这个问题。

with open('CCKS/PKUBASE/pkubase-complete.txt', 'rb') as f:  # 打开文件
    # 在文本文件中,没有使用b模式选项打开的文件,只允许从文件头开始,只能seek(offset,0)
    first_line = f.readline()  # 取第一行
    offset = -50  # 设置偏移量
    while True:
        """
        file.seek(off, whence=0):从文件中移动off个操作标记(文件指针),正往结束方向移动,负往开始方向移动。
        如果设定了whence参数,就以whence设定的起始位为准,0代表从头开始,1代表当前位置,2代表文件最末尾位置。 
        """
        f.seek(offset, 2)  # seek(offset, 2)表示文件指针:从文件末尾(2)开始向前50个字符(-50)
        lines = f.readlines()  # 读取文件指针范围内所有行
        if len(lines) >= 2:  # 判断是否最后至少有两行,这样保证了最后一行是完整的
            last_line = lines[-1]  # 取最后一行
            break
        # 如果off为50时得到的readlines只有一行内容,那么不能保证最后一行是完整的
        # 所以off翻倍重新运行,直到readlines不止一行
        offset *= 2
last_line 
5、存储数据
with open('xxxxx.txt','a') as file_handle:   # .txt可以不自己新建,代码会自动新建
    for line in new_3:
        file_handle.write(line)     # 写入
        file_handle.write('\n')         # 有时放在循环里面需要自动转行,不然会覆盖上一条数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值