brat标注的ann文件，转为BIO序列标注

最新推荐文章于 2024-05-30 20:37:43 发布

晚安，小饼干

最新推荐文章于 2024-05-30 20:37:43 发布

阅读量1k

点赞数 4

文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/limeichenbingwei/article/details/130218009

版权

这个地方真的好少有人写到，踩了好久的坑都不知道怎么解决。

首先，在用brat自带的转换序列标注的文件时，运行程序

1、python2 anntoconll.py ../data/data_new/corpoa.txt

报错：

File "anntoconll.py", line 154, in text_to_conll return StringIO('\n'.join(('\t'.join(l) for l in lines))) TypeError: initial_value must be unicode or None, not str

问了chatGPT，修改：

在文件开头加了

try:
from StringIO import StringIO # Python 2
except ImportError:
from io import StringIO # Python 3

又将报错的代码改为：return StringIO('\n'.join(('\t'.join(l)+'\n' for l in lines)))

2、可以运行了，但是发现生成的文件中，中文是乱码的。

问了chatGPT，他想让我将乱码的文件进行修改，没看懂怎么操作的。

3、然后我将系统中的示例文件也进行了同样的操作，发现英文的文件序列标注后并不会报错。于是再次问了chatGPT，他先提出的解决方案是：

python2 anntoconll.py -e utf-8 ../data/data_new/corpoa.txt

但是anntoconll.py并没有-e的选项，也没有可以添加操作的地方。

4、又提出修改代码：

return io.BytesIO('\n'.join(['\t'.join(l) for l in lines if l]).encode('utf-8'))

但是报错：

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 6: ordinal not in range(128)

5、再次修改代码：

with open(filename, 'r', encoding='utf-8') as f:
再次报错：

TypeError: 'encoding' is an invalid keyword argument for this function
这个错误是因为使用的是 Python 2.x 版本，而在 Python 2.x 版本中，open() 函数不支持 encoding 参数来指定文件编码。

6、再次修改：

import codecs

with codecs.open(fn, 'r', encoding='utf-8') as f:
# 处理文件内容
错误解决，可以正常运行了。

最后的文件长这样：

我真的无语凝噎

晚安，小饼干

博客等级

码龄6年

4
原创

12
点赞

28
收藏

6
粉丝

关注

私信

热门文章

最新评论

ACE2005数据预处理步骤
2401_82807501: 可以发邮件到ldcdata@foxmail.com，科研用途可以分享LDC语料。
ACE2005数据预处理步骤
m0_74227802: 于是又翻了一下这个博客，发现还有个data_list.csv，把这个文件的名字删掉了，然后再运行，可以跑起来了。请问这里你是把哪个地方删掉啦
brat标注的ann文件，转为BIO序列标注
肝代码掉头发: 我也成功了！！！最后那个codecs可能需要改两个地方，一个是process_files的一个是get annotation的，非常感谢！！！
brat标注的ann文件，转为BIO序列标注
qq_41776276: 我改成功了！牛！
brat标注的ann文件，转为BIO序列标注
CSDN-Ada助手: 非常感谢您的分享，让我们了解到了如何将brat标注的ann文件转为BIO序列标注。您的博客写得非常清晰详细，让人一下子就能明白其中的步骤和细节。祝贺您能够坚持不懈地写作，希望您在未来的创作中，能够继续分享更多有价值的内容，让读者受益匪浅。在下一步的创作中，建议您可以尝试探索一些新的领域，开拓自己的视野，进一步提高自己的水平。期待您的更多精彩作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

大家在看

技术leader成长记：从执行者到管理者的思维转变

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。