ERNIE命名实体识别，运行run_sequence_labeling.py训练数据过程中，evaluate报错

最新推荐文章于 2024-07-26 15:39:36 发布

李梦扬

最新推荐文章于 2024-07-26 15:39:36 发布

阅读量779

点赞数 1

文章标签：自然语言处理

本文链接：https://blog.csdn.net/kaka354/article/details/104576770

版权

问题说明：

从ERNIE的git上下载的代码、模型和数据，在 windows 上运行，将参数写到文件里，运行run_sequence_labeling.py，可以正常开始训练，但是在训练过程中的evaluate会报错，如下：

[INFO] 2020-02-29 15:58:11,491 [run_sequence_labeling.py:  310]:	validation result of dataset ./data/task_data/msra_ner/dev_new.txt:
Traceback (most recent call last):
  File "E:\PyProject\ERNIE-release-r2.1.0\reader\task_reader.py", line 280, in f
    for i in wrapper():
  File "E:\PyProject\ERNIE-release-r2.1.0\reader\task_reader.py", line 271, in wrapper
    examples, batch_size, phase=phase):
  File "E:\PyProject\ERNIE-release-r2.1.0\reader\task_reader.py", line 232, in _prepare_batch_data
    to_append = len(batch_records) < batch_size
TypeError: unorderable types: int() < NoneType()
[INFO] 2020-02-29 15:58:11,518 [run_sequence_labeling.py:  314]:	[evaluation] f1: 0.000000, precision: 0.000000, recall: 0.000000, elapsed time: 0.025930 s, file: ./data/task_data/msra_ner/dev_new.txt, epoch: 0, steps: 200
[INFO] 2020-02-29 15:58:11,721 [run_sequence_labeling.py:  310]:	validation result of dataset ./data/task_data/msra_ner/test_new.txt:
Traceback (most recent call last):
  File "E:\PyProject\ERNIE-release-r2.1.0\reader\task_reader.py", line 280, in f
    for i in wrapper():
  File "E:\PyProject\ERNIE-release-r2.1.0\reader\task_reader.py", line 271, in wrapper
    examples, batch_size, phase=phase):
  File "E:\PyProject\ERNIE-release-r2.1.0\reader\task_reader.py", line 232, in _prepare_batch_data
    to_append = len(batch_records) < batch_size
TypeError: unorderable types: int() < NoneType()
[INFO] 2020-02-29 15:58:11,751 [run_sequence_labeling.py:  314]:	[evaluation] f1: 0.000000, precision: 0.000000, recall: 0.000000, elapsed time: 0.029920 s, file: ./data/task_data/msra_ner/test_new.txt, epoch: 0, steps: 200

解决过程：

经过一番检查，在 evaluate_wrapper 方法中家在数据的时候使用的batch_size，为args.predict_batch_size，但是在初始化参数的时候没有设置predict_batch_size。

def evaluate_wrapper(reader, exe, test_prog, test_pyreader, graph_vars,
                     epoch, steps):
    # evaluate dev set
    for ds in args.dev_set.split(','): #single card eval
        test_pyreader.decorate_tensor_provider(
            reader.data_generator(
                ds,
                batch_size=args.predict_batch_size,
                epoch=1,
                dev_count=1,
                shuffle=False))
        log.info("validation result of dataset {}:".format(ds))
        info = evaluate(exe, test_prog, test_pyreader, graph_vars,
                 args.num_labels)
        log.info(info + ', file: {}, epoch: {}, steps: {}'.format(
            ds, epoch, steps))

解决方法1：将 batch_size=args.predict_batch_size，改成batch_size=args.batch_size。

解决方法2：在设置参数的时候加上 args.predict_batch_size = 8。

问题解决。