2. 去掉“3_人民日报语料”中每行前边的数字编号,改成“1, 2,......”
pyhton处理
#coding=utf-8
index = 19
file_name = '3.txt' #待处理文件的文件名,放在了项目的文件夹下
update_number_result_name = '3_result.txt' #更新成数字的文件的名字
try:
file_read = open(file_name) #打开将要读取的文件
file_write = open(update_number_result_name, 'w') # 创建将要写入的文件
count = 1 #设置计数器,用来计算编号1,2,3…………
for line in file_read: #对读到的文件每一行进行操作
if len(line) < index: #如果读到了空行,就重新写回空行
file_write.write('\n')
else: #如果读到了不是空行,就将编号替换为 1,2,3…………,并更新计数器
file_write.write(str(count)+line[index:])
count += 1
file_read.close()
file_write.close() #关闭文件
print 'Successful conversion.' \
'the result has been saved in 3_result.txt' #输出结果
except Exception, e:
print e.message
修改之前的 3_人民日报语料
修改之后的 3_人民日报语料