基于Python的自然语言处理系列（42）：Token Classification（标注分类）

最新推荐文章于 2025-06-18 15:55:34 发布

原创

最新推荐文章于 2025-06-18 15:55:34 发布 · 1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能

在本篇文章中，我们将探讨如何进行 Token Classification（标注分类），这是一类为句子中的每个 token（词或子词）分配标签的任务。该任务可以解决很多问题，例如命名实体识别（NER）、词性标注（POS）和分块（Chunking）。本文将聚焦于命名实体识别任务，并展示如何使用 BERT 模型进行微调。

1. 数据加载

我们使用 CoNLL-2003 数据集，这是一个常用的命名实体识别数据集。通过 load_dataset() 函数加载数据集：

from datasets import load_dataset

raw_datasets = load_dataset("conll2003")

加载后的数据集包含三个任务的标签：NER、POS 和 Chunking。我们主要关注 NER 任务，因此接下来我们会处理 ner_tags 标签。

2. 数据预处理

在进行标注分类任务时，输入文本需要被转换为 token ID。由于我们处理的是预分词数据（即每个输入已按词分割），我们需要使用 is_split_into_words=True 参数告诉 tokenizer 如何处理这些分词数据。首先，下载并缓存 BERT 预训练模型的 tokenizer：

from transformers import AutoTokenizer

model_checkpoint = "bert-base-cased"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

我们可以用 tokenizer 处理预分词输入，同时利用 word_ids() 方法确保 token 与标签正确对齐：

inputs = tokenize

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

会飞的Anthony

关注关注

25
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

18、使用Python进行自然语言处理（NLP）：从基础到实践

x2y3z4a5b的博客

06-12

144

本文全面介绍了使用Python进行自然语言处理（NLP）的基础知识和实践方法，涵盖词汇分析、句法分析、分词、词干提取等基本概念，以及文本分类、词袋模型、主题建模等实际应用。同时深入探讨了深度学习技术在NLP中的应用，包括RNN、LSTM、CNN和Transformer模型，并提供了情感分析的具体实现和构建完整NLP流水线的示例代码。最后展望了NLP未来的发展方向，如多模态NLP和跨语言NLP。

22、Python自然语言处理基础：NLTK入门指南

最新发布

hp777的博客

08-23

104

本博客介绍了使用Python进行自然语言处理（NLP）的基础工具NLTK（Natural Language Toolkit），包括其功能、安装方法、基本的文本处理技术（如分词、词性标注和文本分类），以及实际应用案例，例如情感分析和信息提取。博客还展示了如何使用NLTK进行文本分析，包括词法分散图和不同分词统计，并提供了进阶学习建议，如深度学习在NLP中的应用和多语言处理。

参与评论您还未登录，请先登录后发表或查看评论

HuggingfaceNLP笔记7.1Token classification

HITzwx的博客

05-06

1137

由于我们处理的是序列标注问题，我们将使用类。在定义这个模型时，主要要记住的是传递有关我们有多少标签的信息。最简单的方法是通过num_labels参数传递，但如果想要像本节开头所示的那样，有一个漂亮的推理小部件，最好设置正确的标签对应关系。它们应该通过两个字典设置，id2label和label2id现在，我们可以将它们传递给就像我们在第3章中定义时一样，创建模型时会发出警告，说明有些权重未使用（来自预训练头的权重），有些权重被随机初始化（来自新的序列标注头的权重），并且建议对模型进行训练。9。

Python(Classification)

蜀山小道士的blog

10-04

2048

Keras搭建NN(classification) import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import datasets from sklearn import preprocessing from keras.models import Sequential,Mod...

Transformers 框架 Pipeline 任务详解（三）：词元分类（token-classification）和命名实体识别

老牛啊

12-12

1398

本文深入简出介绍了 Transformers 框架中的 token-classification 任务，从基础概念到实际应用，包括命名实体识别、分词和词性标注，最后还会提供详细的代码示例和 WebUI 界面操作，帮助你快速上手词元分类和命名实体识别……

python数据分析：分类分析（classification analysis）

CSDN_224022的博客

06-12

2575

另外，分类算法也可以用于知识抽取，通过模型找到潜在的规律，帮助业务得到可执行的规则。这些属性可以不同地分类（例如，“A”，“B”，“AB”或“O”，对于血型），序数（例如“大”，“中”或“小”），整数值（例如，电子邮件中特定单词的出现次数）或实际值（例如血压的测量值）。accuracy_s：准确率（Accuracy），分类模型的预测结果中将正例预测为正例、将负例预测为负例的比例，公式为：A = (TP + TN)/(TP + FN + FP + TN)，取值范围[0,1]，值越大说明分类结果越准确。

用huggingface.transformers.AutoModelForTokenClassification实现命名实体识别任务

诸神缄默不语的博客

04-14

2896

用huggingface.transformers.AutoModelForTokenClassification实现命名实体识别任务

【Python自然语言处理基础】：文本分析与处理技巧

![【Python自然语言处理基础】：文本分析与处理技巧]...本文旨在全面介绍Python在自然语言处理(NLP)领域的应用，涵盖从基础文本分析到深度学习技术的实践。第一章概述了自然语言处理的基础知识和Python在该领域

自然语言处理实战：新闻文本分类（附代码）

热门推荐

南有芙蕖

08-13

5万+

自然语言处理实战：新闻文本分类 ——本文比赛来源于天池零基础入门NLP - 新闻文本分类。目录自然语言处理实战：新闻文本分类一、赛题理解1、学习目标2、赛题数据3、数据标签4、评测指标5、数据读取6、解题思路二、数据读取与数据分析1、学习目标2、数据读取3、数据分析3.1句子长度分析3.2新闻类别分布3.3字符分布统计4、数据分析的结论5、本章小结三、基于机器学习的文本分类1、学习目标2、机器学习模型3、文本表示方法 Part13.1One-hot3.2Bag of Words3.3N-gram3.4

python 3.6 simple_classification.py 机器学习简单分类例子带注释帮助理解

12-28

python 3.6 simple_classification.py 机器学习简单分类例子，用训练数据拟合分类器模型，用训练好的分类器去预测数据集的标签，带注释帮助理解。

caffe for python官方教程（中文版翻译）00-classification+可视化每一层feature map

10-13

利用caffe的python接口实现分类+可视化每一层（卷积层+池化层+全链接层），官网教程的加强版

基于BertForTokenClassification算法的长文本实体识别

09-21

Bert 模型采取了两个预训练任务：Masked Language Model和Next Sentence Prediction，而这两个任务都是基于BertPreTrainedModel抽象基类。 2.1 BertPreTrainedModel 所有Bert-based的模型，包括预训练模型和下游任务模型都是基于BertPreTrainedModel类，用于初始化权重参数和加载预训练描述。同时也继承了PreTrainedModel的变量和方法。

weixin_39673686的博客

09-16

1万+

阅读这篇文章你需要知道什么是bert？ bert几乎时最新最强的预训练模型之一。使用方法很简单，只需要一块gpu，大概8g显存，再取github上找到pytorch transformer这个repo，最后运行里面的run glue.py恭喜你！成功打开新世界大门但是，如何用bert做ner呢？我们现在的run glue只能解决句子分类，而ner相当于词级分类，所以只能自己想怎么搭建模...

Transformer中`[CLS]`（Classification Token）是什么

ZJQ的博客

06-18

603

`[CLS]`的核心是聚合全局语义，无论分类还是生成模型，只要需要理解输入序列的整体含义，就会通过某种形式实现类似功能。

caffe学习笔记7：python-classification入门

博客

04-11

470

caffe学习笔记7：python-classification入门原网页：https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb caffe学习笔记7：python-classification入门主要内容 1.Setup 2.导入网络和对输入图像进行处理 3.使用CPU进行分类 4.使用G...

【HuggingFace文档学习】Bert的token分类与句分类

micah_yaokunkun的博客

10-14

3310

输出的维度是 [batch_size, sequence_length, num_labels]，其中 num_labels 是可能的标签数量。一个用于token级分类的模型，可用于命名实体识别(NER)、部分语音标记(POS)等。一个用于整个句子或段落级别的分类的模型，可用于情感分析、文本分类等。对于给定的输入，模型将为整个序列产生一个分类标签。输出的维度是 [batch_size, num_labels]，其中 num_labels 是可能的分类数量。)——包含模型所有参数的。

【Python机器学习】零基础掌握Classification系数与评分函数方法

Mr数据杨

11-02

195

在本文中，我们深入探讨了四种重要的模型性能度量方法：Matthews相关系数、Jaccard得分、折现累积增益和标准化折现累积增益。每种度量方法都有其独特的应用场景和优势，能够从不同的角度为模型性能提供全面的评估。通过正确理解和应用这些度量方法，可以更准确地评估和优化模型的性能，从而在实际应用中取得更好的效果。

Classification（pytorch实现）

Jankin的博客

03-20

499

Classification 分类该程序中的函数 torch.normal(means, std, out=None) 返回一个张量，包含从给定参数means,std的离散正态分布中抽取随机数。均值means是一个张量，包含每个输出元素相关的正态分布的均值。 std是一个张量，包含每个输出元素相关的正态分布的标准差。均值和标准差的形状不须匹配，但每个张量的元素个数须相同。 [外链图片转...

Pytorch: 命名实体识别: BertForTokenClassification/pytorch-crf

Wangpeiyi9979的博客

04-27

1万+

文章目录基本介绍BertForTokenClassficationpytorch-crf实验项目参考基本介绍命名实体识别：命名实体识别任务是NLP中的一个基础任务。主要是从一句话中识别出命名实体。比如姚明在NBA打球从这句话中应该可以识别出姚明(人), NBA(组织)这样两个实体。常见的方法是对字或者词打上标签。B-type, I-type, O，其中B-type表示组成改类型...