在做信息抽取的时候,需要对训练数据的object和 subject数据计算他们和句中每一个实体的距离,所以需要用到分词,但大部分的分词工具都不能准确将object和subject分出来,需要先在json类型的数据中先提取这两种数据:
import json
fr=open("/../baidudata/train_data.json","r")
data=[]
for line in fr.readlines():
ls=json.loads(line)
data.append(ls["spo_list"][0]["object"])
data.append(ls["spo_list"][0]["subject"])
fw=open("../baidudata/train.txt","w")
for line in data:
fw.write(line+"\n")
fw.close()
原始json数据:
第一行的具体信息:
生成的数据: