我已经创建了一个包含模型训练数据的.txt文件。培训样本具有如下所示的特定结构:("sample sentence",
{"entities": [ ]})
我有大约600个,我需要用python把它们放到一个列表中。但是,当我用file.readlines()等进行“普通”python读取时,我得到的所有示例都作为字符串导入,基本如下:
^{pr2}$
是什么使得训练数据对模型无效。在
所以我的问题是如何告诉python不使用任何字符串格式来读取.txt文件,而只是按原样读取它呢?在
//编辑:
txt是一个包含训练数据的文件,适用于遵循NER注释方案的空间模型的训练过程。spaCy文档页中具有NER注释方案的训练数据示例:TRAIN_DATA = [
("Uber blew through $1 million a week", {'entities': [(0, 4, 'ORG')]}),
("Google rebrands its business apps", {'entities': [(0, 6, "ORG")]})]
我的.txt文件看起来与此完全相同,除了在.txt文件的开头和结尾没有[ ],并且中间有一行分隔符。所以这个例子在我的.txt文件中如下所示:("Uber blew through $1 million a week",
{'entities': [(0, 4, 'ORG')]}),
("Google rebrands its business apps",
{'entities': [(0, 6, "ORG")]})