用深度学习做命名实体识别(附代码)

用深度学习做命名实体识别(附代码)

 

基于CRF做命名实体识别系列
用CRF做命名实体识别(一)
用CRF做命名实体识别(二)
用CRF做命名实体识别(三)

一. 摘要

  • 之前用CRF做了命名实体识别,效果还可以,最高达到0.9293,当然这是自己用sklearn写的计算F1值,后来用conlleval.pl对CRF测试结果进行评价,得到的F1值是0.9362
  • 接下来基于BILSTM-CRF做命名实体识别,代码不是自己写的,用的github上的一个大佬写的,换了自己的数据集,得到最终的结果是0.92
  • 本文主要简单的介绍下BILSTM-CRF的原理,以及如何把大佬的数据集换成我们自己的数据集,进行训练。

二. 正文

如果你想细致地了解BILSTM,那你首先得去看RNN(循环神经网络),然后再看RNN的升级版本LSTM,最好才能过渡到BILSTM。了解完这些再去看CRF(条件随机场),CRF这边可又是一番天地了,等你了解完你的老板该炒你鱿鱼了。所以对于初学者我一向主张不择手段先把模型跑下来,跑出结果,然后才有信心去好好学习原理。在这里还是要好好感谢那位大佬。

1. BILSTM-CRF的原理简介

如果你不懂什么叫做BILSTM,CRF,没关系,你只要知道他们是命名实体识别里两个层就行,就像神经网络里的概念一样,层次结构。

 

BILSTM-CRF

 

如上图,这里面做了一件什么事情呢?

  • 输入是词向量,这个直接用word2vec训练就能得到
  • 输出是每个句子预测的标签

流程

词向量输入到 BILSTM层 ,然后输出值是这句话每个标签的预测分数,这些分数便是 CEF层 的输入,其实没有CRF层我们也可以训练 BILSTM,但是我们就不能保证每次预测的都是对的,因为它有可能胡来,比如第一个预测的是B-PER,下一个预测的是B-ORG,这就不符合自然语言的规则了,所以我们加入了CRF这一层,用来约束这些标签,它可以自动地去学习这些约束。
那么CRF是怎么学习这些约束的呢?
简单地说就是计算每个标签下一个标签地概率,概率大就有可能出现这样的标签,概率小就不会出现了。


2. 他山之石,可以攻玉

1). 保证代码运行正确

Chinese NER
大家点击去Clone下来就行
然后就是重点来了!!!
下载下来运行并不会那么顺利,会报错的

首先打开main.py文件,如果训练的话就是图中的两个True,如果测试的话就把图中的两个True改成False

flags = tf.app.flags
flags.DEFINE_boolean("clean",       True,      "clean train folder")
flags.DEFINE_boolean("train",       True,      "Wither train the model")
  • 错误1
    TypeError: slice indices must be integers or None or have an index method
    解决方案:遇到这个错误你就去data_utils.py文件里找到下面的代码,改一下即可
    def sort_and_pad(self, data, batch_size):
        num_batch = int(math.ceil(len(data) /batch_size))
        sorted_data = sorted(data, key=lambda x: len(x[0]))
        batch_data = list()
        for i in range(num_batch):
            batch_data.append(self.pad_data(sorted_data[i*int(batch_size) : (i+1)*int(batch_size)]))
        return batch_data
  • 错误2
    UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa3 in position 0: invalid start byte
    解决方案:这个是编码问题,遇到这个问题你就进到utils.py里,找到下面的代码,加上一句encoding = 'utf-8'就OK了。我印象中是这几处,如果还报这个错误就继续排查类似的即可
def test_ner(results, path):
    """
    Run perl script to evaluate model
    """
    output_file = os.path.join(path, "ner_predict.utf8")
    with open(output_file, "w", encoding='utf-8') as f:
        to_write = []
        for block in results:
            for line in block:
                to_write.append(line + "\n")
            to_write.append("\n")

        f.writelines(to_write)
    eval_lines = return_report(output_file)
    return eval_lines

def save_config(config, config_file):
    """
    Save configuration of the model
    parameters are stored in json format
    """
    with open(config_file, "w", encoding="utf8") as f:
        json.dump(config, f, ensure_ascii=False, indent=4)


def load_config(config_file):
    """
    Load configuration of the model
    parameters are stored in json format
    """
    with open(config_file, encoding="utf8") as f:
        return json.load(f)
  • 错误3
    NameError: name 'os' is not defined
    这个错误很奇怪,我是看到作者代码里有导入os的
    解决方案:import os

2). 更换数据集

打开下载下来的文件,data文件夹里面有三个文件,分别为验证,测试,训练数据集,你只需把你的数据集切分成这三份即可(比例自己定,我的是7:2:1)。

  • 标签必须得是BIO格式,总之你的标签要和它的一模一样。
  • 还有标识符,windows生成的数据集文件我们发现换行符都是\r\n,也就是在notpad++上打开的话,显示所有标识符后会发现CRLF,我们要把它改成LF。
    可以用替换的方法,直接把\r\n替换成\n,这样就满足条件了

3). 训练

这些操作之后你就可以运行main.py了

三. 总结与展望

最近一直在努力地理解这些个原理,争取早日攻克它们。大家工作的话一般项目会比较紧急,没有时间给你慢慢理解原理,然后再去写代码做项目。所以要学会用别人的代码,改造它们,让它为自己所用。最后很感谢github的那位大佬,真的很厉害。希望这篇博客能帮到大家,谢谢各位


以下是我所有文章的目录,大家如果感兴趣,也可以前往查看
?戳右边:打开它,也许会看到很多对你有帮助的文章

  • 7
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
命名实体识别(Named Entity Recognition, NER)是自然语言处理中的一个重要任务,用于识别文本中具有特定意义的实体,如人名、地名、组织机构名等。实体级评估通常是NER任务完成后对模型性能的定量评价,它关注的是模型在识别特定实体类别上的准确性。 评估代码通常涉及以下几个步骤: 1. **数据集划分**:将数据集划分为训练集、验证集和测试集,用于模型训练、调优和最终性能验证。 2. **评估指标**: - **精确率(Precision)**:正确预测为正例的实体数除以所有预测为正例的实体数。 - **召回率(Recall)**:正确预测为正例的实体数除以实际所有该类别的实体数。 - **F1分数**:精确率和召回率的调和平均值,平衡了两者之间的权衡。 3. **编码器+解码器模型**:如果是基于序列标注的模型,如BERT、Spacy的CRF或Hugging Face的Transformers,评估会基于模型的预测标签和真实标签进行计算。 4. **代码库支持**:许多机器学习和深度学习库提供了内置的评估功能,例如Python的`scikit-learn`库的`classification_report`,以及`seqeval`用于序列标注任务的评估。 5. **代码示例**: ```python from sklearn.metrics import classification_report, precision_recall_fscore_support from seqeval.metrics import f1_score, precision_score, recall_score # 假设y_true是真实标签列表,y_pred是模型预测的标签列表 precision, recall, f1, _ = precision_recall_fscore_support(y_true, y_pred, labels=ner_classes) print("Precision:", precision) print("Recall:", recall) print("F1 Score:", f1_score(y_true, y_pred)) report = classification_report(y_true, y_pred, target_names=ner_classes) print("Classification Report:\n", report) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值