Ontonotes数据集处理详细教程

        因为我在得到ontonotes数据集后,想要由原来的文本格式,变成下图这种格式。(图源博客)。这篇博客写的很详细了,但我还是碰到了一点点问题,所以再梳理一个更详细的版本。

在这里插入图片描述

            首先,去这个网站,将下图中的文件下载(图源知乎

         下载后解压,前四个文件解压后会得到conll-2012文件夹,里面会有v4,v9两个文件夹。将conll-2012文件夹和下载得到的ontonotes数据集解压后的文件夹ontonotes-release-5.0放在同一目录,如下:

         第五个文件scripts解压后,将其中的两个文件,放在conll-2012/v4/scripts路径下,如下图:

        先打开.py文件,因为我是python3环境,这个代码是在python2环境下运行的,所以要进行一些修改。

         1. 将所有的print “xxxxxx”,变为print("xxxxx");所有的print,变为print()     就是加上括号

        2. 将except xxxx, e 变为 except xxxx as e      加上as

        保存

        然后,在这个文件夹下,Git bash here(不清楚怎么操作的,可以看这篇帖子),在命令行中运行如下命令:

skeleton2conll.sh -D [path/to/conll-2012-train-v0/data/files/data] [path/to/conll-2012]

         即可得到处理好的conll格式的文件啦

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
【毕设源码】词汇增强NER 包含源码+数据集 词汇增强的NER 这是对于论文“Simplify the Usage of Lexicon in Chinese NER”的实现,该论文没有在中文NER中合并单词词典的复杂操作,而是将词典加入到中文NER中,这十分简单有效。 源代码说明 要求 Python 3.6 Pytorch 0.4.1 输入格式 CoNLL格式,每个字符及其标签由一行中的空格分隔。 首选“ BMES”标签方案。 别 O 错 O 过 O 邻 O 近 O 大 B-LOC 鹏 M-LOC 湾 E-LOC 的 O 湿 O 地 O 预训练的嵌入 预训练的嵌入(单词嵌入,char嵌入和bichar嵌入)与Lattice LSTM相同 运行代码 1.从Lattice LSTM 下载字符嵌入和单词嵌入,然后将它们放在data文件夹中。 2.分别在data / MSRANER,data / OntoNotesNER,data / ResumeNER和data / WeiboNER中下载四个数据集。 3.训练四个数据集: 在OntoNotes上进行训练: python main.py --train data/OntoNotesNER/train.char.bmes --dev data/OntoNotesNER/dev.char.bmes --test data/OntoNotesNER/test.char.bmes --modelname OntoNotes --savedset data/OntoNotes.dset 在Resume上进行训练: python main.py --train data/ResumeNER/train.char.bmes --dev data/ResumeNER/dev.char.bmes --test data/ResumeNER/test.char.bmes --modelname Resume --savedset data/Resume.dset --hidden_dim 200 在微博上训练: python main.py --train data/WeiboNER/train.all.bmes --dev data/WeiboNER/dev.all.bmes --test data/WeiboNER/test.all.bmes --modelname Weibo --savedset data/Weibo.dset --lr=0.005 --hidden_dim 200 在MSRA上进行训练: python main.py --train data/MSRANER/train.char.bmes --dev data/MSRANER/dev.char.bmes --test data/MSRANER/test.char.bmes --modelname MSRA --savedset data/MSRA.dset 4.训练/测试自己的数据:使用文件路径修改命令并运行。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值