Ontonotes数据集处理详细教程

最新推荐文章于 2024-06-22 09:35:14 发布

嗷呜呜龙

最新推荐文章于 2024-06-22 09:35:14 发布

阅读量1.1k

点赞数

文章标签： python 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang_20_04/article/details/127908537

版权

因为我在得到ontonotes数据集后，想要由原来的文本格式，变成下图这种格式。（图源博客）。这篇博客写的很详细了，但我还是碰到了一点点问题，所以再梳理一个更详细的版本。

在这里插入图片描述

首先，去这个网站，将下图中的文件下载（图源知乎）

下载后解压，前四个文件解压后会得到conll-2012文件夹，里面会有v4,v9两个文件夹。将conll-2012文件夹和下载得到的ontonotes数据集解压后的文件夹ontonotes-release-5.0放在同一目录，如下：

第五个文件scripts解压后，将其中的两个文件，放在conll-2012/v4/scripts路径下，如下图：

先打开.py文件，因为我是python3环境，这个代码是在python2环境下运行的，所以要进行一些修改。

1. 将所有的print “xxxxxx”，变为print("xxxxx")；所有的print，变为print() 就是加上括号

2. 将except xxxx, e 变为 except xxxx as e 加上as

保存

然后，在这个文件夹下，Git bash here（不清楚怎么操作的，可以看这篇帖子），在命令行中运行如下命令：

skeleton2conll.sh -D [path/to/conll-2012-train-v0/data/files/data] [path/to/conll-2012]

即可得到处理好的conll格式的文件啦

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

嗷呜呜龙 CSDN认证博客专家 CSDN认证企业博客

码龄5年

1: 原创

173万+: 周排名

224万+: 总排名

1150: 访问

: 等级

12: 积分

0: 粉丝

0: 获赞

2: 评论

2: 收藏

私信

关注

热门文章

Ontonotes数据集处理详细教程 1151

最新评论

Ontonotes数据集处理详细教程
ldcdata: 可以发邮件到ldcdata@foxmail.com，科研用途可以分享LDC语料。
Ontonotes数据集处理详细教程
小孟师兄: 博主您好！请问一下可以分享一下处理好的notonotes5.0的json格式数据吗？可以有偿的

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。