中文糖尿病科研文献实体关系数据集DiaKG抽取出实体识别数据集,并随机分割成训练集测试集和验证集
好多的数据集比如ccks2017,ccks2018等数据集只给出了整个的数据集并没有进行分割。而对于DiaKG数据官方给出的既包含实体信息也包含了关系抽取的信息,显得比较冗余,并且分割成立几十个json文件导致我们在使用的时候比较麻烦。这几天刚好想用这个数据集做一下医学实体识别的实验,就对该数据集进行了分割。有什么不足之处,或者实现错误的地方,还请多多指教!上面的代码时进行数据的整理,从原始的数据集中抽取做实体识别的数据集并进行保存。上面的代码时使用sklearn库将数据集分成了训练集,测试集和验证集。
原创
2024-09-21 15:06:46 ·
251 阅读 ·
0 评论