常见的预料库
链接: 微软数据.
链接: 人民日报.
链接: 微博语料数据.
数据预处理代码
下面展示一些 将我不是<per>江莱</per>
转换成‘BIOE标准格式’。
import codecs
import sys
def character_tagging(input_file, output_file):
input_data = codecs.open(input_file, 'r', 'utf-8')
output_data = codecs.open(output_file, 'w', 'utf-8')
for line in input_data.readlines():
word_list = line.strip().lower().replace('<per>',' <').replace('</per>',' ').split()
for word in word_list:
if len(word) == 1:
output_data.write(word + "\tO\n")
else:
if word[0]!= '<':
for w in word[0:len(word)]:
output_data.write(w + "\tO\n")
else:
output_data.write(word[1] + "\tB-PER\n")
for w in word[2:len(word)-1]:
output_data.write(w + "\tI-PER\n")
output_data.write(word[len(word)-1] + "\tE-PER\n")
output_data.write("\n")
input_data.close()
output_data.close()
if __name__ == "__main__":
input_file = 'name_only.txt'
output_file = 'name_only_bieo.txt'
character_tagging(input_file,output_file)
最终转换结果: