自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

翻译 数据标注:AI背后的十亿市场

两年前,王磊成为一个数据标注员的时候他的工作内容非常简单:鉴别图片中人的性别。慢慢地。他意识到分配给她的任务越来越复杂,从识别性别到年龄,从框选2D物体到3D物体,图片场景从白天到深夜甚至多雾天气,千奇百怪小王今年25岁,她以前是个餐厅服务员。2017年她所在的公司倒闭之后,一个算法工程师朋友建议她尝试一个新的领域:数据标注,即把现实世界中的数据通过标注提供给人工智能系统,特别是用于监督机...

2019-09-05 14:06:26 4438

原创 Opencv标注开源工具CVAT介绍和使用心得

介绍一下背景,公司为100人左右TO B端AI企业,致力于用AI技术如人脸识别,NLP等技术赋能传统企业。公司算法大概10+,算法需要训练数据但是公司又没有精力自己开发一套标注系统,所以抱着试试看的态度找到了OPENCV开源的标注系统CVATCVAT的github地址如下:https://github.com/opencv/cvat下面介绍一下这个工具1)有基本的成员管理系统如创建...

2019-08-26 15:20:49 9730 5

原创 智能催收机器人

智能催收机器人语料训练针对逾期一天的客户的催收机器人主要以提醒客户还款为主,对话流程设置较为简单,主要为1.确定是不是本人2.情况说明,询问逾期原因3.第一次催收4.第二次催收5.结束语针对第一次和第二次催收得到的肯定或者否定答案,分别对应不同的回答话术。设置全局语境,整个对话过程中关键词触发全程语境则跳出分支,回答对应的问题,回答完全局语境问题接着走对话分支。意图标注标签划分为:已经还了,承诺还...

2018-07-13 16:04:34 6162

原创 免费人工智能深度学习图像标注工具

我们开发了一款标注工具可以提供如bounding box, polygon ,semantic segmentation等图像标注和语音转写等,大家如果有图像或者语音的标注需求可以免费适用,网址为www.tasksparka.ai,账号为test,密码xiaolin007  注意要用CHROME谷歌浏览器!界面如下,欢迎反馈帮助我们改进使用体验2D bounding box, 框标注点标注工具多边...

2018-04-17 11:18:26 7529 11

转载 五分钟了解AI常见术语

With so much research in AI and evolving applications, it can be difficult to keep track of all the confusing terms in artificial intelligence. In this post, I attempt to pen-down common terms and the...

2018-03-25 11:43:29 1121

翻译 基于机器视觉的应用案例对比常见的几种标注方法

机器视觉的专家要做的一件很重要的事情就是判断使用哪种标注工具获得的训练数据可以得到最准确的模型你可能会用完全不同的标注发方法来处理一批同样的原始数据或者为了另外的算法完全重新标注原始数据来得到更高的模型准确率。在SPARKAPI,我们针对人工智能的企业采用更人性化的服务。在和客户交谈的过程中,我们经常会被问到针对某个特定的项目,我们推荐什么样的标注工具。我们已经帮助通过庞大的标注任务帮助客户解决了...

2018-03-24 17:54:22 1009

翻译 基于实例的像素级标注介绍

对于机器视觉的项目,有多种标注方法可供选择。比如你可以把图片划分为不同的类别,为图片中物体画严格相切的2D框,在重要实体的角落里画点或者把给点图片中的每个单独的像素都标注出来。不同的标注方式来源于不同的项目需求但是这几年来对像素级别的语义分割的数据需求不断增加。如今的一般情况是在像素级别上,分别标注不同的类别,比如在自动驾驶项目重,一个类别可能指的是行人,车辆或者广告牌或者是其他的你的算法模型需要...

2018-03-23 17:49:41 6898 1

转载 自动驾驶语义分割模型

State-of-the-art Semantic Segmentation models need to be tuned for efficient memory consumption and fps output to be used in time-sensitive domains like autonomous vehiclesIn a previous post, we studi...

2018-03-23 13:01:28 3852

翻译 机器视觉中常用开源数据集和免费标注工具

科技巨头如Google,微软,亚马逊等都纷纷宣布在AI领域布局,AI的影响随着深度学习的应用日益深入。机器视觉作为一个热门子领域,无论是在传统金融行业还是最新自动驾驶领域都掀起了一股学习应用的浪潮。这是多么棒的一件事啊!但是我们应该如何简单的开始研究机器视觉?以下是几个主要的步骤1.收集大量的数据2.标注这些数据3.拿到GPUs-训练ML模型需要强大的计算支撑4.选择一个算法-训练你的模型-检测结...

2018-03-23 12:41:39 6031 8

翻译 自动驾驶领域的语义分割数据集有哪些

对城市自动驾驶语义分割的开源数据集的理解可能会对工程师如何训练自动驾驶模型有所帮助最近10年我们在语义分割数据集的创建和算法提升方面付出了很多努力。最近得益于深度学习理论的发展,我们在视觉场景理解的子领域中获得了不少进步。深度学习的缺点是需要大量的标注数据,这里我们整理了一些广泛应用的城市语义分割的数据集希望可以为自动驾驶领域提供借鉴。这是我们关于如果为自动驾驶提供语义分割数据集系列文章中的第一篇...

2018-03-22 16:21:47 6939 3

转载 什么是训练数据

众所周知,机器处理和存储知识的速度比人类快很多。但是我们如何最大限度的利用机器让他们来处理一些“智能任务”呢?这个问题的答案是:用和这些智能任务相关的数据来“喂养”机器,让机器从这些数据中学习。这些相关的数据又称为训练数据。机器学习的模型和儿童学习的方式类似。回想一下当一个孩子观察一个新事物时,比如当天第一次观察一只狗时,他会得到这个场景中的一些反馈比如记住这种狗的特征如有毛,两只眼睛,一只尾巴等...

2018-02-24 22:19:29 19987

原创 大型语言模型 (LLM) 的开源训练数据集

大型语言模型(LLM)的出现引发了各行各业的革命性变革。ChatGPT 以其在诗歌写作方面的独创性给公众留下了深刻印象,而企业则正在采用深度学习人工智能模型来构建先进的神经信息处理系统,以满足垂直领域的需求。GPT、LLaMA 和 Falcon 等 LLM 所带来的好处包括提高效率、降低成本,以及营造有利于协作的业务环境。然而,很少有人对大型语言模型在文本生成和其他自然语言处理任务中表现出众,或在部署的其他相关领域中表现出色的因素提出质疑。在本文中,我们将探讨人工智能公司用于训练模型的数据集的重要性。

2024-01-22 20:40:45 1199

原创 LLM大模型和数据标注

在正式开始前我们先简单介绍下数据标注和常用场景数据标注是对数据中的特定元素进行识别、描述和分类,以训练机器学习模型的过程。标注后的数据将用于处理、预测基础模型或者对真实生活数据进行响应。它有助于模型或神经网络学习并做出决策,从而产生所需的结果。例如,OCR系统需要识别原始数据中的个人身份信息。为此,标注人员会在训练样本上标注姓名、身份证和联系方式。然后,机器学习工程师用数据集训练模型,以实现OCR实体识别,并从存储的文档中提取个人详细信息。数据标注看似简单,但各种参数可能会影响标注结果和模型性能。

2024-01-10 17:52:31 3005

原创 免费英-挪平行语料赠送啦!

因为工作的原因业余时间整理出5W英语-挪威语平行语料,现免费赠送给各位NLP大佬,有意向的同学麻烦私信我获取!希望大家多多交流共同进步!

2021-05-31 16:52:10 176

原创 开源语音数据集

推荐一个开源的语音数据集下载网址https://commonvoice.mozilla.org/zh-CN

2021-03-24 21:28:02 633 1

转载 搬运工-AI知识介绍系列

搬运自youtube的视频,多名资深从业者详细介绍了AI基础知识和各个领域的发展。https://v.youku.com/v_show/id_XNTEyMjU4MDYwOA==.htmlHi! My name is Alejandro Carrillo, and i'm arobotics engineer at an agricultural company.Specifically my team usesmachine learning and roboticsand comp...

2021-03-17 12:18:41 203

原创 如何根据实际问题训练调优部署机器学习模型

开始细致工作前,需要选择你使用的语言(如R或者python),框架(如tensorflow),算法(如YOLO)建立一个可以快速迭代的模型结构比一开始就寻找一个完美的方案更加实际下面进行几步1.数据采集与收集以行人检测为例,确定输入数据和输出数据,输入为给定的图片,输出与带有bounding box框的图片,这些框包含行人X/Y坐标和长宽数据等在利用标注数据训练模型之前还需要考...

2019-10-14 11:44:28 246

翻译 如何构建,训练,测试和部署机器学习模型

建立机器学习(ML)模型令人兴奋。经过调整和更改以及不眠之夜之后,到达您认为可以在现实世界中使用的东西可能会有所帮助。不幸的是,您刚刚创建的概念证明标志着工作的开始,而不是结束。建立基准模型后,就该构建更全面的版本,测试,部署和维护该模型了。机器学习团队的工作似乎从未完成。当您的团队将其概念证明转化为实际应用时,有一些注意事项:模型是真实应用程序的引擎。如果我们考虑行人的物体检测模型,则可以逐...

2019-10-14 10:53:56 1112

翻译 训练机器学习模型时如何评估数据质量

A Deep Dive Into Benchmarks, Consensus and Review训练数据的质量对于模型表现至关重要。我们用一致性和标注数据准确率来评估质量。业内评估训练数据质量的基本方法是benchmark(aka gold standard),一致性和检查。作为AI数据科学家,工作中一个重要任务就是如何有效组合应用这些数据质量保证方法。在这边文章中,你会学到:*数据...

2019-10-11 22:23:22 6332

转载 3D点云标注工具

Why now?Here atSuperviselywe spend a lot of time developing annotation tools for machine learning. While 2D labeling (i.e. images or videos) is still the most convenient and well-known source of d...

2019-09-09 21:11:18 7123

转载 自动驾驶领域LIDAR数据集

Although 2D camera data is used to teach autonomous vehicles to find their way from Point A to PointB, it comes with its own set of drawbacks. For eg: camera images are not very useful when it is dark...

2018-07-13 16:12:09 4790

原创 互金公司AI落地场景介绍

智能催收、OCR生物识别、智能风控模型

2018-05-03 16:50:15 426

转载 如何为chatbot提供训练语料

对话的实质是什么?我们的生活中充满对话,从和男朋友准备晚餐的聊天,从快餐店订一个烤鸭,对公司季度销售进行总结报告,对话无处不在。对话有不同的长短,不同的主题,不同的重要性和不同的聊天场合,但是我们很少思考:我为什么要进行这次对话?我的目的是什么?本文中,我们从对话是协同行动(coordinating joint action)这个视角来理解它。对话是动态的,充满了信号和互动。我们可以按照自己的设想...

2018-04-01 12:58:42 1602

转载 7个获得训练数据的方法

数据科学家知道没有经过训练的统计模型基本上没用。没有高质量的标注训练数据,监督学习就不能正常工作,没有办法确保模型可以预测,分类或者准确分析指定的现象当你在做监督学习时,如果找不到正确的训练数据,那么很难搭建这个模型。即使你找到了正确的训练数据集,如果这些数据没有被正确标注或者注释用来训练你的机器学习算法,这些数据也没有很大的用处。然而,大多数的数据科学家不愿意做标注的工作因为这个工作往往是重复枯...

2018-03-30 18:26:26 5359

翻译 在机器学习中,你需要多少训练数据?

你为什么会问这个问题?首先我们要搞清楚你为什么会问需要多大的训练数据集。可能你现在有以下情况:你有太多的数据。可以考虑通过构建学习曲线(learning curves)来预估样本数据集(representative sample)的大小或者使用大数据的框架把所有的可得数据都用上。你有太少的数据。首先确定你的数据量确实比较少。那么可以考虑尝试收集更多的数据或者用数据增强的方法(data augmen...

2018-03-30 10:40:57 7818

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除