AI产品经理怎么做数据标注

在这里插入图片描述

前几天参加京东的AI技术沙龙,在提问环节,有个小伙说:

“我是做销售的,刚才您讲的我都没听懂,我就知道,现在AI是风口,只要做AI相关的就能挣钱,您能说几个现在我们这类人能做到吗?能挣钱就行!”

台上技术出身的老师自然一时语塞。小伙说的没错,百团大战的时候确实一批刷单公司赚得盆满钵满。但是这些投机取巧注定不能长远。

让更多人卷进这次AI浪潮的可能就是数据标注了,All in AI的百度拥有大量的标注业务,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。开始的时候标注的利润空间可以达到60%—70%。有些企业盲目扩张,一下子招了几百人;但是陆奇离开后,百度需求减少。准确率又普遍提高至95%-96%,活难干了。这些工厂只会百度的标注工具,很难接别家的业务,因此死了一批。

现在来看标注行业是一个苦行业,“如果你和谁有仇,就劝他干标注吧。”这是标注圈有名的段子。干标注就像将水倒进一个水桶里,每拉一个框就是添一碗水。目前,谁也不知道还能添多久,只有水溢出来时,才知道。

数据是AI公司的必需品。数据对于AI模型的重要性尤为重要,AI建模没有门槛,数据才是门槛。现阶段的人工智能是简单的认知智能。分类器的构造是个数学问题,就是由数据堆起来的。或者说深度学习本质上是个数学问题,是由大量的样本空间数据反向构造分类器的系数空间的过程。

数据标注模型

数据标注业务的配置是一个复杂的数学模型。比如,有些任务需要串并联的工作流,并联的工作流是多人协同的工作。串联的工作流是后一个结果是基于前一个结果进行处理的,串并联的工作流需要平台来实现业务工作流的配置。比如一些NLP型的文本标注作业,需要多个人来标,最后N选一或者投票。串并联配置涉及到底层数据流的分发等。或者说更像是一个流水线作业流程。

在这里插入图片描述

不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。

数据的质量直接会影响到模型的质量,因此数据标注流程设计和监督纠错就显得异常重要。

一般来说,数据标注部分可以有三个角色:

  1. 数据标注员:标注员负责标记数据。(文本、图像、视频)
  2. 数据审核员:审核员负责审核被标记数据的质量。(抽检)
  3. 标注管理员:管理人员、发放任务、跟进流程。

只有在数据被审核员审核通过后,这批数据才能入库使用。

一般众包数据标记流程

  1. 任务分配:一般数据分配由后台自动分发,根据用户选择标注类型每次分发几条内容,标注完成后再次分发。
  2. 复核入库:一般一条任务会分配给大于三个人的基数人员完成,根据少数服从多数原则确定该条数据的最终标签。
  3. 质量验收:一般会根据用户标注总数量和入库数量计算该用户的标注质量,和计算有效标注数量,质量高的和质量低的薪酬计算方法会有差别,以此来淘汰不能完成高质量标注的人员。

数据标注类型

图像标注-线标注

根据需求标注检测对象相对应的线型位置,例如:车道线。

在这里插入图片描述

图像标注-边框标注

标注检测对象相对应的区域,例如:汽车/行人等各种物体。

在这里插入图片描述

图像标注-3D边框标注

将图像中待检测物体以立体形式标注,例如汽车检测。

在这里插入图片描述

图像标注-语义分隔

根据检测区域不同,将图像标注为不同的像素,例如来自汽车拍摄的图像。

img

图像标注-多边形标注

根据需求标注检测对象的形状,例如:标注图像中的汽车轮廓(示例图)或标记污损边界。

在这里插入图片描述

图像标注-点标注

根据需求标注检测对象参考点的像素坐标,或者图像中的关键点标记,如人脸。

img

图像标注-3D点云标注

在3D空间中,标注点云数据中指定的检测对象,如汽车、行车道等。

在这里插入图片描述

视频标注-跟踪标注

在视频或者连续的图像中跟踪标注检测对象,形成有ID关联的运动轨迹。

img

文本标注-中英文语音转写与校对

英文语音转中文文本,或中文文本转英文语音。

文本标注

实体命名,标注文本中的实体。

img

语音标注-客服语音标注

外呼机器人进行外呼记录语音标注呼叫成功或者失败,从而训练话术。

标注流程

  1. 需求确认:对标注任务需求确认,标注数据集准备完成,规范标注需求,指定标注模型。
  2. 人员筛选:确定标注人员及人员角色
  3. 人员培训:针对不同角色培训标注规范和标注标准
  4. 开始试标:先标注少量数据,试用标注数据,调整标注流程,使得效率最优。
  5. 正式标注:完成整体标注任务。导出数据。

总结

快速、高效的进行数据标注,是机器学习和深度学习的基础,现在一些标注工具通过深度学习模型和主动学习技术,通过NLP模型来提高标注效率,集数据标注、数据管理、模型训练和模型服务于一体,使数据标注更加轻松、更高效。离AI最近的重复复杂的工作,是首先会被机器取代的。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值