NER 常见问题(BIO BIOES BMES)标注之间的转换

实习收到的第一个任务

人民日报数据集的训练集用的就是BIO格式

然后我们转化为BIOES 和 BMES

首先是BIO转BMES

path = r'./input/data_train.txt'
res_path = r'./output/BMES.txt'

f = open(path, encoding='utf-8')
f1 = open(res_path, 'w+', encoding='utf_8')

sentences = []
sentence = []
label_set = set()
cnt_line = 0
for line in f:
    cnt_line += 1
    if len(line) == 0 or line[0] == '\n':
        if len(sentence) > 0:
            sentences.append(sentence)
            print(sentence)
            sentence = []
        continue
    splits = line.split(' ')
    sentence.append([splits[0], splits[-1][:-1]])
    label_set.add(splits[-1])

if len(sentence) > 0:
    sentences.append(sentence)
    sentence = []
f.close()

for sen in sentences:
    i = 0
    for index, word in enumerate(sen):
        char = word[0]
        label = word[1]
        if index < len(sen) - 1:
            if (label[0] == 'B'):
                if sen[index + 1][1][0] == 'I':
                    label = label
                elif sen[index + 1][1][0] == 'O':
                    label = 'S' + label[1:]
            elif (label[0] == 'I'):
                if sen[index + 1][1][0] == 'I':
                    label = 'M' + label[1:]
                if sen[index + 1][1][0] == 'O' or sen[index + 1][1][0] == 'B':
                    label = 'E' + label[1:]
            elif (label[0] == 'O'):
                label = label
        else:
            if (label[0] == 'B'):
                label = 'S' + label[1:]
            elif (label[0] == 'I'):
                label = 'E' + label[1:]
            elif (label[0] == 'O'):
                label = label

        f1.write(f'{char} {label}\n')
    f1.write('\n')
f1.close()

然后是BMES转BIOES

f= open(r'./output/BMES.txt', 'r', encoding='utf-8')
f1 = open(r'./output/BIOES.txt', 'w+', encoding='utf-8')
str1=[]

for line in f.readlines():
    #print(list(line))
    if line!="\n":
        line1 = line.split()
        str2 = line1[0]
        for i in range(1, len(line1)):
            line2 = list(line1[i])
            if line2[0] == "M":
                line2[0] = "I"
            str3 = ''
            for i in line2:
                str3 = str3 + i
            str2 = str2 + ' ' + str3
        print(str2)
        str1.append(str2)
    else:
        str1.append(line)
for j in str1:
    f1.write(j)
    f1.write("\n")

不同的标注格式跑出来的召回率是不一样的 以后会经常用到

  • 11
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lyttonkeepgoing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值