数据标注工程——概念、方法、工具与案例

说明:本文章为博主的读书笔记,书名为《数据标注工程——概念、方法、工具与案例》,作者为聂明教授、齐红威博士(数据堂公司董事长)。

第2章 数据标注的概念、工具与方法

2.2.4 文本数据集

应用领域数据内容
机器翻译平行语料
自然语言理解实网文本、NLP标注、知识库
智能交通车辆位置数据、用户行为数据
语音识别说话人信息、语料文本、波形文件标注文件

2.3.4 文本数据标注工具

功能描述
实体标注实体:如人名、地名、组织、职位
实体关系标注实体的逻辑关系
文档属性标注属性:如文档类型、文档情感
阅读理解根据文本回答相应的问题
交互意图识别文本的领域、意图、槽位、槽值

2.5 数据标注工程

数据标注工程,也称为工程化数据标注,是指数据产品制造(数据集)的系统化、工程化、流程化的组织与实施过程。

2.5.3 数据标注

不同的标注任务需要不同的客户端,一般图片类和语音类的标注可以通过浏览器实现,这种实现方式的好处在于代码更新可以在服务器端实现,并能对客户端有较强的管控能力;其他如视频标注,因为涉及大量数据的高带宽交互,则需要通过本地客户端的形式对数据进行缓存,并提供更强大的客户端处理和标注能力。

  1. 在进行标注前应完成五项准备工作
    (2)整理数据。明确数据与标签文件存放的目录结构,在任务分配与回收时,应按指定的目录进行数据组织。
    (3)明确命名规则。应明确数据与标签文件的命名方式,命名规则应避免数据更新迭代时的重名,便于数据追踪、标注追踪,且数据文件名与标签文件名应保持一致。
    (5)明确标注数据的定义。

  2. 标注说明规则
    (2)标注说明规则定义。标注说明规则明确项目背景、意义及数据应用场景,包含项目标注工具、任务描述、标注方法、正确实例、常见错误等内容。标注说明规则应有可变更性,该变更由相关方评审同意后再更新文档。
    (5)建立统一的标注术语字典,确保数据标注人员对术语和定义理解的一致性。

  3. 标注人力供给方式(标注人力模式):内部自营标注、第三方标注、众包标注。

  4. 选择的标注工具应满足以下条件:易操作性(提供交互方式的自有标注)、规范性、高效性。
    标注平台包含各种标注工具、团队管理、任务分发、质量审核等环节的模块,且将所有标注环节工具化。当数据量相对较小、数据类型相对单一、标注周期较短时,宜选择标注工具进行标注。

  5. 标注任务创建、分发、开展和回收
    标注数据上传成功后,当仅靠标注数据完成标注时,在创建任务的过程中,任务责任人要事先明确标注任务的目的以及标注规范等。
    (1)创建任务包括以下内容:
    ①明确任务基本信息:包含任务目的、任务需求(任务优先级、标准人员的能力要求级别等)、任务描述等。
    ②任务配置:根据不同的任务需求,匹配不同的标注工具,添加与标注任务相关的标注标签。
    ③将数据路径上传至平台。
    ④进行版本控制。
    (2)标注任务分发。分发者在发布数据时,应明确与标注任务相关的参数:
    ①参与标注人数
    ②任务中子任务数量
    ③数据标注员每人每天工作量
    ④回收子任务时间点
    ⑤任务结束时间点
    标注任务的分发对象包含标注人员和审核人员。分发给前者时,也应分发给后者。在标注过程中,同时进行审核工作。
    如同一个子任务分发给多人参与,则需对每个子任务的回收结果进行比对。
    (3)标注任务开展。标注任务中的数据标注方法分两种:全人工标注和半自动标注。
    (4)标注任务回收。如果未按时交付,则由候补成员继续完成任务。

2.5.5 数据交付

(2)文本类型的数据验收。文本类标注任务的数据结果应包含文本标签的位置和标签的具体内容。输出格式推荐使用JSON、XML、TXT。

第6章 文本数据标注

从本质上看,文本数据标注就是一个监督学习的过程,而标注问题又是更复杂的结构预测问题的简单形式。标注问题的目的在于学习模型,使该模型能够对观测序列给出标记序列作为预测。这也决定了标注问题的工作流程,即输入是一个观测序列,之后输出是一个标记序列或者状态序列

6.1.2 基本概念

  1. 序列标注
    序列标注是一个比较简单的自然语言处理任务,也是最基础的任务。其涵盖范围非常广泛,可用于解决一系列对字符进行分类的问题。
    实体标注用于命名实体识别,其目的是识别出文本里的专有名词(实体)且属于哪个类(实体类别)。
    词性标注可标注文本内容的实体名称、实体属性和实体关系。
    意图理解数据就是搜集各种用户的问法,然后按领域分类,标记每句话所属的意图以及槽位、槽值。领域是一个大分类。意图代表客户明确要问的事情。每个意图会定义一组槽位,就是用户问句里会出现的关键词类别。一个槽位在不同句子里会有不同的槽值。

  2. 关系标注
    关系标注是对复句的句法关联和语义关联做出重要标示的一种任务,是复句自动分析的形式标记。关系标注涉及到知识图谱。知识图谱,也叫知识库,客户用来做查询和推理用。知识图谱的结构包括实体、属性和关系。

  3. 属性标注
    属性标注就是对文本数据中的对象属性进行标签。情感标注是文本标注的重点内容。

6.1.3 流程介绍

(1)预处理
(2)标注。线下标注可通过线下小工具或线下文本等进行操作。
(3)质检。
(4)验收。
(5)数据处理。
(6)数据交付:数据加密后交付客户。

第8章 工程化数据标注的组织管理

8.1 数据标注项目实施流程

8.1.1 数据标注项目

数据产品生产企业以项目的方式来组织和实施每一项数据标注业务,数据标注业务以项目的方式存在于企业内部。数据标注项目的管理目标和实施过程是基于现代化项目管理知识体系和理论的。

8.1.2 一般项目实施流程

(1)项目售前:销售引导跟客户沟通其业务需求,售前及数据产品经理会对需求可实施性及价格做评估。
(2)项目准备:组建项目团队,协调内外部资源,制订项目管理和实施计划,准备项目所需软硬件环境,进行相关培训,召开项目启动会。
(3)项目建设:详细业务需求调研和确认,部署测试环境,制定和分发项目实施操作规范,按照项目实施计划进行项目实施,以及变更管理和实施等。
(4)项目交付:对项目成果物按照验收需求进行整体验收确认,之后交由客户进行确认。
(5)项目售后(支持):根据客户反馈对项目进行总结评估,对客户使用及操作上的问题进行支持等。

8.1.3 数据标注项目实施流程

(1)启动阶段
汇总现阶段所有问题;制订项目具体实施计划;准备项目所需环境和资源,包括软硬件环境,以及所需人力资源;进行相关培训;召开项目启动会

(2)试做阶段
在前阶段准备的基础上,测试一遍小批量的数据的生产-验收-交付流程,确认项目整理流程后,总结其中遇到的问题并给出解决方案

(3)量产阶段
按照项目实施计划,有计划有步骤地开展数据的生产和验收工作

(4)验收阶段
分阶段验收及最终验收

(5)交付阶段
数据交付后等待客户验收和确认。根据客户验收和确认的结果,如发现不合格,都会返回到量产阶段,严重时恢复到试做阶段

(6)总结和售后阶段
针对项目的实施过程进行经验和教训总结,解散项目团队,项目结束

第12章 数据标注的发展趋势

12.3 数据标注发展趋势

定制化精细化发展、智能化流程化发展(管理和执行一体化,任务拆分和工序制定)。

关于⼈⼯智能数据标注学习 ⽬录 项⽬⼀:认识数据标注 ⼈⼯智能数据标注主要包括:图像标注,语⾳标注,⽂本标注! 数据标注是借助标注软件,对⼈⼯智能学习数据进⾏加⼯和运⽤的⾏为! 项⽬⼆: 项⽬⼆:图像标注的学习 1.基本命令提⽰符 基本命令提⽰符 cd A:\ 将A盘的当前⽬录改为根⽬录 cd A:\xx 将A盘的当前⽬录改为⼦⽬录xx下 cd ..\98 先返回⽗⽬录,再进⼊⽗⽬录下的98⼦⽬录 cd ..返回到⽗⽬录(注:"."代表当前⽬录 ".."代表⽗⽬录) 以上为⽐较常⽤的命令提⽰符,其他提⽰符就不列出来了,可以⾃⾏上⽹查阅! 2.Anaconda软件的安装 软件的安装 笔记本电脑直接软件商店搜索就 ,台式的话得到官⽹去下载! 安装的时候记得这两个都勾选!以便配置全局变量!!!!!! 3.labelme软件的安装 软件的安装 直接到 直接到Anaconda的命令提⽰框⾥⾯! 的命令提⽰框⾥⾯! 先安装虚拟环境! 激活虚拟环境! conda creat -n Labelme python=3.8 安装Labelme软件 以下基本为labelme的运⾏界⾯! 该软件是英⽂版基本使⽤⽅法就⾃⾏琢磨吧! 4.Labelme软件命令和常⽤的图像数据集 软件命令和常⽤的图像数据集 activate Labelme Pip install labelme==3.16 -i https://pypi.tuna.tsinghua.edu.cn/simple Labelme软件⽣成的JSON⽂件转化为dataset⽂件的操作 5.图像分类 图像分类 ⾸先啊!就是激活环境啦! 然后通过⽂本打开Labelme!!! 命令如下 单双标签都⼀样的打开⽅式! 6.⽬标检测标注 ⽬标检测标注 ⽬标检测标识是指通⼈⼯标注出图像中感兴趣的⽬标,同⼀类的标签中可以有多个,通常使⽤矩形进⾏标注!!!基本有两种类型: 物体的标注和⼈脸的标注但其实操作都⼀样!!!仅仅知识标签和⽂件路劲的问题!!! ⽅法同5差不多! 1建⽴标签⽂本启动Labelme 2通过⽂本打开Labelme 操作代码如下 1 Labelme_json_to_dateset 路径+⽂件名 2 如:Labelme_json_to_dateset D:\1.json 1 //激活环境: activate Labelme 2 //通过⽂本启动Labelme: Labelme --flags D:\flags.txt --nodata 3 //不管怎样还是得根据⽂件路劲来 1 1.激活:activate Labelme 2 2.打开:Labelme --labels D:\labels.txt --nodata --autosave 3 注意:具体⽂件名和路劲应根据相应你建⽴的来填 采⽤矩形框来标注!!! 7.语义分割标注 语义分割标注 语义分割就是对图像中的每个对象都打上标签,如把图像中的⼈,树⽊,草地,天空和动物等都打上对于的标签。语义分割标注需要将 物体的轮廓都标注出来,标注的精度远⾼于⽬标检测标注。 同样如上: 转化为VOC数据集可以时使⽤" Labelme2voc.py"命令 。格式如下 8.实例分割 实例分割 实例分割是⽬标检测和语义分割的结合,即在图像中先将⽬标检测出来(⽬标检测),然后对每个⽬标打上对应的标签(语义分割)。 在语义分割中,不区分属于相同类别的不同⽬标(所有⽬标都标为相同颜⾊),实例分割标注则需要区分同类的不同实例(使⽤不同颜⾊来 区分不同的⼈)。 9.全景分割标注 全景分割标注 全景分割标注是语义分割标注和实例分割标注的结合,既要检测所有⽬标,⼜要区分类别中的不同实例。实例分割只是对图像中的⽬ 标进⾏检测和按照橡素分割,区分不同实例(使⽤不同颜⾊),⽽全景标注分割是对图⽚中的所有物体包括背景都要进⾏检测和分割。 10.视频标注 视频标注 1 2 3 1激活: activate Labelme 4 2打开: Labelme --labels D:\labels1.txt --nodata 5 3同样需要注意⽂件名和路劲 6 4.JSON转为dataset 7 Labelme_json_to_dataset 路劲+JSON⽂件名 8 5如:Labelme_json_to_dataset D:\hello\2021_12_27_001.json 9 10 1 2 命令: python Labelme2voc.py 图像⽬录 ⽣成voc⽬录 --labels labels⽂件路径 3 如下: python d:\Labelme2voc.py D:\Hello\DIRS\semantic_segmentation D:\data_dataset_voc --labels D:\
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值