1、数据格式
1-RCV-00O
1-BMSR-J006-04-Z3-MWH
1-2000-200-SB-H5006B
1-RC02-11A-MA
0-SAP3VA
1-DN-20CR
3-A-00VL
2、加载类库
import csv
3、加载数据、处理数据(小文件)
temp=[]
with open('xxxxx.txt',encoding='utf-8') as f:
f_csv = csv.reader(f)
for line in f_csv:
temp.append(line[0]+'@@mmd')
或者
temp=[]
with open('中英文映射表.txt',encoding='utf-8') as f:
f_csv = f.readlines()
for line in f_csv:
temp.append(line)
4、加载数据、处理数据(大文件2g以上)
######下面代码的功能是将一个2g以上的大文件拆分成多个小文件。
with open('CCKS/PKUBASE/pkubase-complete.txt','rb') as f:
sum = 0
temp = []
for line in f :
sum+=1
temp.append(line)
if sum%10000000==0 or line == b'<\xe4\xba\xba\xe4\xb8\xba\xe6\x80\xa7\xe7\x9a\xae\xe7\x82\x8e>\t<openkg_uri>\t"http://www.openkg.cn/COVID-19/wiki/resource/R11270" .':
with open('CCKS/PKUBASE/pkubase-complete_{}.txt'.format(sum//10000000),'wb') as file_handle: # .txt可以不自己新建,代码会自动新建
for line in temp:
file_handle.write(line) # 写入
temp = []
这样读取有一个难点:我们需要知道最后一行是什么,保证能够保存所有的数据。
下面的代码解决了这个问题。
with open('CCKS/PKUBASE/pkubase-complete.txt', 'rb') as f: # 打开文件
# 在文本文件中,没有使用b模式选项打开的文件,只允许从文件头开始,只能seek(offset,0)
first_line = f.readline() # 取第一行
offset = -50 # 设置偏移量
while True:
"""
file.seek(off, whence=0):从文件中移动off个操作标记(文件指针),正往结束方向移动,负往开始方向移动。
如果设定了whence参数,就以whence设定的起始位为准,0代表从头开始,1代表当前位置,2代表文件最末尾位置。
"""
f.seek(offset, 2) # seek(offset, 2)表示文件指针:从文件末尾(2)开始向前50个字符(-50)
lines = f.readlines() # 读取文件指针范围内所有行
if len(lines) >= 2: # 判断是否最后至少有两行,这样保证了最后一行是完整的
last_line = lines[-1] # 取最后一行
break
# 如果off为50时得到的readlines只有一行内容,那么不能保证最后一行是完整的
# 所以off翻倍重新运行,直到readlines不止一行
offset *= 2
last_line
5、存储数据
with open('xxxxx.txt','a') as file_handle: # .txt可以不自己新建,代码会自动新建
for line in new_3:
file_handle.write(line) # 写入
file_handle.write('\n') # 有时放在循环里面需要自动转行,不然会覆盖上一条数据