读取存储txt文件_pkubase-complete2.txt和pkubase-mention2ent.txt-CSDN博客

本文链接：https://blog.csdn.net/qq_33182424/article/details/105209714

txt文件的读取与存储

1、数据格式

1-RCV-00O
1-BMSR-J006-04-Z3-MWH
1-2000-200-SB-H5006B
1-RC02-11A-MA
0-SAP3VA
1-DN-20CR
3-A-00VL

2、加载类库

import csv

3、加载数据、处理数据（小文件）

temp=[]
with open('xxxxx.txt',encoding='utf-8') as f:
    f_csv = csv.reader(f)
    for line in f_csv:
        temp.append(line[0]+'@@mmd')

或者

temp=[]
with open('中英文映射表.txt',encoding='utf-8') as f:
    f_csv = f.readlines()
    for line in f_csv:
        temp.append(line)

4、加载数据、处理数据(大文件2g以上)

######下面代码的功能是将一个2g以上的大文件拆分成多个小文件。

with open('CCKS/PKUBASE/pkubase-complete.txt','rb') as f:
    sum = 0
    temp = []
    for line in f :
        sum+=1
        temp.append(line)
        if sum%10000000==0 or line == b'<\xe4\xba\xba\xe4\xb8\xba\xe6\x80\xa7\xe7\x9a\xae\xe7\x82\x8e>\t<openkg_uri>\t"http://www.openkg.cn/COVID-19/wiki/resource/R11270" .':
            with open('CCKS/PKUBASE/pkubase-complete_{}.txt'.format(sum//10000000),'wb') as file_handle:   # .txt可以不自己新建,代码会自动新建
                for line in temp:
                    file_handle.write(line)     # 写入
                temp = []

这样读取有一个难点：我们需要知道最后一行是什么，保证能够保存所有的数据。
下面的代码解决了这个问题。

with open('CCKS/PKUBASE/pkubase-complete.txt', 'rb') as f:  # 打开文件
    # 在文本文件中，没有使用b模式选项打开的文件，只允许从文件头开始,只能seek(offset,0)
    first_line = f.readline()  # 取第一行
    offset = -50  # 设置偏移量
    while True:
        """
        file.seek(off, whence=0)：从文件中移动off个操作标记（文件指针），正往结束方向移动，负往开始方向移动。
        如果设定了whence参数，就以whence设定的起始位为准，0代表从头开始，1代表当前位置，2代表文件最末尾位置。 
        """
        f.seek(offset, 2)  # seek(offset, 2)表示文件指针：从文件末尾(2)开始向前50个字符(-50)
        lines = f.readlines()  # 读取文件指针范围内所有行
        if len(lines) >= 2:  # 判断是否最后至少有两行，这样保证了最后一行是完整的
            last_line = lines[-1]  # 取最后一行
            break
        # 如果off为50时得到的readlines只有一行内容，那么不能保证最后一行是完整的
        # 所以off翻倍重新运行，直到readlines不止一行
        offset *= 2
last_line

5、存储数据

with open('xxxxx.txt','a') as file_handle:   # .txt可以不自己新建,代码会自动新建
    for line in new_3:
        file_handle.write(line)     # 写入
        file_handle.write('\n')         # 有时放在循环里面需要自动转行，不然会覆盖上一条数据