为了解救算法工程师,AWS机器学习又长出了新本事

这是一个数据大爆炸的时代。

 

根据IDC 发布的《数据时代2025》白皮书,全球数据量大约每两年就将翻一倍。到2025年,全球数据总量将攀升至163ZB。而且自动驾驶、物联网等新技术正在不断推动数据量的爆炸。每辆自动驾驶汽车每秒就会产生 6-8GB 的数据,现在国内一线城市的摄像头数量都在百万级别,每时每刻产生大量的数据。

 

好在,机器学习可以成为处理大规模数据的利器。数据是人工智能的燃料,机器学习的发展,就是伴随着数据处理难度和复杂性的升级而不断升级。如何更好的帮机器学习开发者打通数据屏障,已经成为领先的人工智能企业的重要课题。

 

在不久前举行的亚马逊re:Invent大会上,AWS共发布180项新的服务和功能,其中,一系列用机器学习加速数据分析的服务备受关注。全托管的机器学习服务平台Amazon SageMaker发布了九项新功能,其中与数据处理直接相关的就有三个。此外,AWS还将机器学习融入数据库分析领域,赋能数据库分析师。当机器学习与数据分析紧密融合,将解决哪些痛点?

为了解救算法工程师,AWS机器学习又长出了新本事

 

为什么算法工程师每天都在搞数据?

 

很多人眼中,机器学习算法工程师的日常是这样的:选择并优化算法、训练与调优模型、部署模型与验证模型。实际上,算法工程师大约有70%的时间是花在数据上的,花在模型和调参上的只有不到20%,这种现状引发了不少开发者的共鸣。

 

为什么会这样?在机器学习过程中,原始数据是不能直接用来训练模型的,需要复杂的处理流程。模型训练所需的数据通常来自不同类型的来源,并且格式多样。这意味着开发人员必须花费相当多的时间提取和规范这些数据。

 

Amazon SageMaker是帮助开发者快速建立、训练和部署机器学习模型的平台,旨在简化开发流程,缩短开发时间,让开发者将更多精力放在最核心的模型训练上。

 

此前,AWS发布的Amazon SageMaker Ground Truth 这个功能可以通过主动学习自动为输入的数据添加标签。主动学习是一种机器学习方法,它会识别需要人工添加标签的数据以及可以由机器添加标签的数据。与人工为整个数据集添加标签相比,Ground Truth最高可减少 70%的成本,并缩短添加标签的时间。

 

为了进一步简化机器学习过程中数据处理方面的复杂性,今年re:Invent大会,Amazon SageMaker推出了两个全新的功能,分别帮助算法工程师简化数据处理和进行特征管理。

 

Amazon SageMaker Data Wrangler 提供了更易用的数据预处理,大大简化了数据准备和特征工程的工作。Data Wrangler支持从各种数据存储中一键导入所需数据,其包含超过 300 个内置的数据转换器,可以帮助客户在无需编写任何代码的情况下,对特征进行规范化、转换和组合。

 

Amazon SageMaker Feature Store是用来存储、更新、检索和共享机器学习特征的工具。目前,这项特征可以被保存到Amazon S3中。

 

Feature Store解决的痛点是,大多数特征并不是只用于一个模型,而是被多个开发人员和数据科学家重复用于多个模型中。此前,工程师只能自行开发应用程序来跟踪管理特征,但工作量很大而且容易出错。有了Feature Store,用于训练的大批量特征,以及用于推理的小批量特征子集,都可以保持特征的一致性和更新的及时性。

 

数据偏见不可避免吗?

 

人类通常是非理性的,有很多认知偏差,不能准确地认知自身及外部环境的真实状态。在人们信息收集、信息加工、信息输出和信息反馈的各个阶段,都会产生认知偏差。机器学习也会产生偏见,这些偏见广泛存在于机器学习的各个环节,包括数据偏见、算法偏见等等。

 

数据偏见是指人们在工作中,由于各种原因不经意把并非完整客观的数据进行收集并处理,而使得结果产出发生“偏见”。数据偏见是机器学习中一种普遍的难题,通常会导致数据集的某些元素比其他元素具有更大的权重或表示。常见的数据偏见有样本偏差、排除偏差、测量偏差等等。

 

有偏见的数据集会导致分析模型的结果偏斜,准确性低甚至分析错误。比如一个主要用白种人人脸数据库训练出来的面部识别系统,对不同种族的人的识别准确度要低得多。

 

Amazon SageMaker Clarify这个新功能可以在整个机器学习工作流中进行偏差检测和模型解释。此前,开发人员通常使用开源工具检测统计偏差,但这需要大量的人工编程,而且经常容易出错。Clarify让开发人员在数据准备阶段就能发现数据偏差。目前,Clarify 已集成到 Data Wrangler,它运行了一系列基于特征数据的算法,用以识别数据准备过程中的偏差,并且清晰描述可能的偏差来源及其严重程度。

为了解救算法工程师,AWS机器学习又长出了新本事

 

此外,随着机器学习模型越来越多地帮助人类进行决策分析,人们对机器学习的可解释性的要求越来越高。可解释性是指人类能够理解决策原因的程度。如果人们能够更多地了解模型的决策过程(原因和方式),就能增加对模型的信任。欧盟在 GDPR(GeneralData Protection Regulation)条例中明确要求,当采用机器做出针对某个体的决定时,比如自动拒绝一个在线信贷申请,该决定必须符合一定要求的可解释性。

 

Amazon SageMaker Clarify的另一大价值在于提供了数据模型的可解释性。“它能帮助你去分析哪些特征对模型的预测更重要,特征和模型之间的关系不再像原来是黑盒子,而是有更强的透明度。” AWS大中华区云服务产品管理总经理顾凡表示。

 

数据库分析师怎么用好机器学习?

 

数据分析和机器学习有很多重合之处。

 

机器学习很高深,但尚处早期,受众有限。今年,AWS在机器学习领域的一大动作就是“扩圈”,寻找更广泛的“圈外”开发者加入进来,使他们基于既有知识体系就轻松上手。AWS机器学习的“扩圈”正是从与数据分析的结合开始。

 

相比机器学习开发者,数据库开发者和数据库分析师是一个更庞大的专业群体。他们是否需要学习机器学习算法开发,才能享用机器学习带来的便利?AWS认为,完全不必。

为了解救算法工程师,AWS机器学习又长出了新本事

 

2020亚马逊re:Invent大会上,AWS全球机器学习副总裁Swami Sivasubramanian 一口气发布了一系列产品服务,包括Amazon Aurora ML、Amazon Athena ML、Amazon Redshift ML、Amazon Neptune ML、Amazon QuickSight Q,分别把机器学习能力融进了关系型数据库、Amazon S3的 SQL 查询、数据仓库、图数据库、商业智能等领域。数据分析人员只需使用早已烂熟的 SQL 语句,就能进行连带机器学习功能的操作。

 

以 Amazon Aurora ML 为例,当用户通过 SQL 查询客户信息以试图找到一些负面反馈时,Amazon Aurora ML 会自动调度 Amazon Comprehend 这样的 AI 服务来返回具备 AI 支持的查询结果。

 

机器学习尚处在早期阶段。据德勤发布的《全球人工智能发展白皮书》预测,到2025年,世界人工智能市场规模将超过6万亿美元。可以预见,在应对数据挑战方面,机器学习提供给开发者的工具集将日益丰富,机器学习开发的门槛将越来越低。

 

本文为「智能进化论」原创作品。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值