关于海量数据集的标签工程的思考

最新推荐文章于 2024-04-15 16:04:18 发布

置顶 Frank_0103

最新推荐文章于 2024-04-15 16:04:18 发布

阅读量408

点赞数 1

分类专栏：思考文章标签：人工智能

本文链接：https://blog.csdn.net/frank_0103/article/details/98360934

版权

思考专栏收录该内容

1 篇文章 0 订阅

订阅专栏

下图是Kaggle官网手机验证识别机器人与否的方式

现状

目前人工智能或者说深度学习赋能各个领域，需要大量的标签化数据集作为支撑，国内现状是聘请大量的人员花费大量人力物力在人工给数据集打标签，这严重影响了数据集的扩充，更加使得数据集的开源收到冲击。国内的网站登录验证方式多是滑块拼图方式，而这种kaggle验证模式，在国外很多大型网站都已经普遍推广开来了。。。

思考

国内的大型网站的登录验证方式是否可以考虑Kaggle类似的模式，让访问者来标记图片，多次标记一类或者多类图片，来达到识别是正常的人类访问，并能够给海量的数据集打标签，真的是一举多得。如此可以解决目前数据集的获取成本变得更低，也让数据集更加具有多样化，符合人类的常规识别等级。虽然要全面推广需要整个行业一起改革，但是完全符合网站各方数据集健全的利益啊，为人工智能赋能各个领域提供了数据基础。

有考虑不周全的地方，还请批评指教，希望各位大佬不吝赐教。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Frank_0103

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

标签数据存储-用户画像系统-人群分析-工程实践

litlit023的专栏

04-18

332

大语言模型原理与工程实践：数据瓶颈问题分析和解决方法原理与应用

最新发布

AI天才研究院

06-25

407

在过去的几年里，随着深度学习技术的飞速发展，大规模语言模型（Large Language Models, LLMs）在自然语言处理（Natural Language Processing, NLP）领域取得了显著的进展。这些模型通过在大规模无标签文本数据上进行预训练，学习到了丰富的语言知识和常识，并在各种NLP任务中表现出色。然而，随着模型规模的不断扩大和应用场景的不断拓展，数据瓶颈问题日益凸显，成为制约大语言模型进一步发展的关键因素。

2 条评论您还未登录，请先登录后发表或查看评论

海量标签如何治理

Sunny的专栏

10-25

439

标签评分是标签治理的一个重要措施，通过给标签打分，可清晰直观的从各个维度评估标签，掌握标签真实使用情况，进行标签持续优化，助力业务运营。同时，也能帮助数据团队判断哪些标签更应该投入计算与存储资源，合理规划集群资源。

海量用户标签系统之存储架构设计（Bigmap算法）

hellozhxy的博客

07-21

622

我们可以观察一下redis返回的二进制数据的特点, 每8个二进制位属于一个字节,每个字节都可以表示成具体的数字(如:0,23,127)这个数字最大也只能到255,而且同一个数字有可能出现非常多次,而每个数字所对应的转换过后的位置数组都是固定的,比如: 100(二进制:1100100) => [1,2,5]我们现在知道如何快速的获取我们想要的数据了,但是我们发现有时候我们获取到的都是二进制的数据例如 00001000 这种,而群殴们想从这样的数据中获取的是 [5] 这样的比较易读的信息。

数据分析——标签

start155的博客

05-03

4820

1. 标签的分类标签按照生成规则不同，可以分为统计类标签、预测类标签。统计类标签只需要利用现有的数据，通过简单的逻辑计算，即可得到。统计类标签按照标签的内容又可以划分为基本属性标签、行为类标签。《大数据时代》的作者维克托·迈尔-舍恩伯格在其著作中说，大数据的简单算法比小数据的复杂算法更有效。统计类标签就是这种依托于大数据的简单算法的结果，在实际生产中，因其靠谱性，使用价值要比预测类标签更...

Django Rest Framework的请求处理视图和路由的基本使用

HashFlag的博客

09-07

503

什么时候声明的序列化器需要继承序列化器基类Serializer，什么时候继承模型序列化器类ModelSerializer？继承序列化器类Serializer 字段声明验证添加/保存数据功能继承模型序列化器类ModelSerializer 字段声明[可选,看需要] Meta声明验证添加/保存数据功能[可选] 看表字段大小，看使用哪个更加节省代码了。 1. http请求处理 drf除了在数据序列化部分简写代码以外，还在视图中提供了简写操作。所以在django原有的django.vie

关于人工智能技术在油田生产管理中应用的实践与思考.pdf

07-10

人工智能技术的应用，能够帮助石油企业深入挖掘利用海量数据的潜在价值，实现由传统的业务驱动管理模式向数据驱动模式转变。接下来，关于异常问题的超前预警，它依赖于生产过程中各个节点的协调运行，某一节点的...

机器学习中的数据集建设

林学森的技术专栏

04-26

1710

以下文章摘录自：《机器学习观止——核心原理与实践》京东：https://item.jd.com/13166960.html 当当：http://product.dangdang.com/29218274.html (由于博客系统问题，部分公式、图片和格式有可能存在显示问题，请参阅原书了解详情) ———————————————— 版权声明：本文为CSDN博主「林学森」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.cs.

数仓体系与数据治理全集

weixin_44687655的博客

04-06

3316

数据仓库（Data Warehouse），可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。

NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM）、新一代数据集BIRD-SQL解读

丨汀、的博客

04-15

1421

NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL）、新一代数据集BIRD-SQL解读

带有标签的检测数据集

09-07

带有标签的检测数据集

表单标签，作用是收集数据

weixin_40615343的博客

06-24

334

<form action="https://www.baidu.com"> <table border="1" cellspacing="0" align="center" width="600"> <tbody> <tr height="40"> <td rowspan="4" align="cente...

数据集扩充，根据原标签弄成较小的图片。

weixin_38378417的博客

04-10

252

# -*- coding: utf-8 -*- import xml.dom.minidom import os import cv2 import random image_root="Documents/rgb/images/" image_new="/Documents/rgb/images2/" labelpath='Documents/rgb/labels2/' image...

数据标签体系与用户画像

weixin_44626528的博客

06-01

3949

1.什么是数据标签体系？用户的数据标签是指通过对用户的社会属性、消费习惯、偏好特征等多个维度的数据进行采集和处理，实现对用户或产品属性特征的刻画，并对这些特征进行分析、统计，挖掘潜在价值，从而抽象出用户的信息全貌。对于用户的数据标签与数据标签体系的关系可以这样理解：用户的数据标签是用户信息标签化，即将用户的各类信息映射为标签符号，这些标签符号最终会形成普通大众对于用户或者产品的认知；数据标签体系是将用户多个维度的标签按照一定规律进行组合，以提高数据分析师的分析效率，更好地辅助运营人员进行决策。2.数据标签体

深度学习（一）：给你的数据集打标签

热门推荐

weixin_47357629的博客

12-25

2万+

深度学习之给自建数据集打标签

数据标签场景的设计方案以及BiConsumer的妙用

秋夜无霜

04-24

1304

文章目录1、需求场景2、方案设计2.1 关系型DB存储2.1.1 表结构设计2.1.2 java代码示例2.2 结构化DB存储伴随着互联网的发展，数据标签不知从何时应运而生。譬如各种社交APP，个人中心都有标签功能，言简意赅，对某人的文字概述。诚然，数据标签也可以用到日常运营平台中，其作用可以作为归类，检索作用。如果发挥的好，就像自己整一个书架一样，瞬间找到文学类，计算机类，科学类书籍。这就得...

数据标注的作用及行业现状

weixin_33834628的博客

02-12

9927

在之前的内容中讲过确立一个算法模型需要使用大量标注好的数据去训练机器让机器去学习其中的特征以达到“智能”的目的。而数据标注就是帮助机器去学习去认知数据中的特征。比如我们要让机器学习认知汽车，我们直接给机器一个汽车的图片它是无法识别的，我们必须对汽车图片进行标注打上标签注明“这是一个汽车”，当机器获得大量打上标签的汽车图片进行学习之后，我们再给机器一个汽车的图片，机器就能知道这是一个汽车了。下面简...

浅谈大数据的标签管理

weixin_33854644的博客

12-25

4938

最近参与了一个大数据的项目，是涉及标签管理方面的内容，使我这个初涉入大数据领域的人获益匪浅。标签，也可以叫做Tag，最早出现于2005年(注1)，随着Web2.0的Blog应用被广泛使用开来。标签也可以说是一种关键词标记，可以更好的显示和突出搜索的关键词条，以便进行更好的索引和浏览查找。但标签又不同于平常的关键词，它可以使用文章或日志中根本没有出现过的词条来标记。比如一篇关于产品方面的文章，通篇...

KDD99数据集标签详解

开源世界

04-11

1万+

KDD是数据挖掘与知识发现（DataMiningandKnowledgeDiscovery）的简称，KDDCUP ACM（AssociationforComputingMachiner）的 SIGKDD（SpecialInterestGrouponKnowledgeDiscoveryandDataMining）组织的年度竞赛。 KDDCUP99dataset...

海量数据下可伸缩的粗糙集属性约简算法

“一种可伸缩的快速属性约简算法是针对现有粗糙集属性约简算法在处理海量数据时存在的局限性进行优化的算法。该算法借鉴了SLIQ（Supervised Learning in Quest）算法的思想，并结合特定的数据预处理策略，以提高在大...