项目背景:UIE-X
背景:根据paddle官方教程尝试在自定义数据集微调UIE-X模型
Label Studio 标注关系后,在ai studio 平台生成训练/验证集文件报错
Traceback (most recent call last):
File "/home/aistudio/PaddleNLP-develop/applications/information_extraction/document/../label_studio.py", line 139, in <module>
do_convert()
File "/home/aistudio/PaddleNLP-develop/applications/information_extraction/document/../label_studio.py", line 95, in do_convert
dev_examples = data_converter.convert_ext_examples(raw_examples[p1:p2], is_train=False)
File "/opt/conda/envs/python35-paddle120-env/lib/python3.9/site-packages/paddlenlp/utils/tools.py", line 510, in convert_ext_examples
items = self.process_image_tag(line, task_type="ext")
File "/opt/conda/envs/python35-paddle120-env/lib/python3.9/site-packages/paddlenlp/utils/tools.py", line 429, in process_image_tag
"type": r["labels"][0],
IndexError: list index out of range
原因分析:
label没有正确标注
官方文档的关系型标签取的名字有误导性
关系型标签应被理解为描述实体间关系的标签。在标签命名时,可能会出现实体标签和关系标签使用相同名称的情况,例如“单位”。新手可能会因此误认为在实体中添加的关系需要在关系标签中再次声明。然而,这种理解是错误的。官方示例中标签名称的重复仅仅是一个巧合。例如,对于三元组(人名,父子,人名),这里的实体是“人名”,而关系是“父子”。按照官方指南进行连接即可。
在前文中,虽然对标签和关系进行了讨论,但并未明确指出报错的原因。报错信息提示缺少label,这表明在标注数据时未能正确指定关系标签。通过下载医疗文档的官方数据集并与之对比,发现问题在于关系型数据未标注label。因此,解决这个问题的方法是在使用Label Studio进行关系标注时,确保选择了相应的标签。这样,报错问题便可得到解决。
解决方案:
提示:这里填写该问题的具体解决方案:
每个关系都点击"…"后并选择好对应的关系型标签再导出,这样之前的报错就解决了。