0424【阅读】数据科学“无代码”时代

发表于: 2018-11-20
原文链接:https://kuaibao.qq.com/s/20181120A0R27600?refer=cp_1026

不需要人工写代码的数据科学

无代码数据科学(即不需要人工写代码的数据科学),或自动机器学习,或者可以称为简单易用的 “增强型”数据科学产品,范围包括:

附带指导的平台:具有高度指导功能的建模程序平台(当然还是需要用户完成一定步骤,这样的平台有BigML,SAS,Alteryx)。经典的简易操作平台(drag-and-drop )是这一代的基础。

自动机器学习(AML):全自动机器学习平台(例如DataRobot)。

会话分析:在最新版本中,用户只要提出可以通过常用英语解决的问题,平台就会提供最佳答案,选择数据,特征,建模技术,甚至可能是最佳数据可视化。

不仅仅为了先进的分析

在高级分析和人工智能中,核心的困难在于精英数据科学家的短缺,以及其高昂的成本和迫切的需求。在这个领域,最需要的是洞察力,效率和一致性。简而言之,就是效率高,速度快。

人们有着一个并不正确的误解:在简易操作系统平台中,不允许微小超参数的调试,而这应该被允许。如果你曾经使用过SAS Enterprise Miner或其竞争对手的平台上,那么您知道这个想法并不对,事实上,微调非常容易做到。

在我的脑海里,总需要写代码是一个不必要的弯路—这往往会让新的数据科学实践者忽视基础知识,而致力于学习另一种编程语言。

模型质量怎么样

我们倾向于将“提高模型的准确性”视为高级分析是否成功的标准。有一种观念认为,依靠自动化的无代码解决方案会丢失部分准确性。事实并非如此。

像DataRobot,Tazi.ai和OneClick.ai这样的AutoML平台不仅支持并行运行数百种模型类型,还包括超参数,而且它们还可以执行变换,特征选择甚至进行一些特征工程。在准确度上击败这样的平台是很困难的。

需要注意的是,应用特征工程领域的专业知识仍然是人类的优势。

也许更重要的是,你在开发上花费几周时间得到的结果和这些AutoML平台提供的几天甚至几小时的结果相似,那到底哪个更值?

无代码化带来更深远的影响

在我看来,无代码化的最大受益者实际上是传统数据分析师和数据学者,他们仍然最关注BI静态数据。独立的数据混合和准备平台,对这个群体(以及工作量将大大减轻的IT工作者)来说,是一个巨大的好处。

这些无代码化数据准备平台,例如ClearStory Data,Paxata和Trifacta正在迅速将机器学习功能纳入它们的流程,帮助用户选择合适的数据源进行数据混合,判断哪些数据项有价值,甚至它们的功能扩展到了特征工程和特征选择。

现代数据平台正在使用嵌入式机器学习技术,作为智能数据自动清洗或异常值处理的典范。

其他公司,例如Octopai公司,刚刚被Gartner评为“5大酷炫公司”之一,专注于让用户通过自动化技术快速查找可信数据,使用机器学习和模式分析来确定不同的数据要素,创建的背景数据,以及数据的预使用和转换之间的关系。

这些平台还通过强制执行权限以及保护PID和其他类似敏感数据来实现数据安全的自助服务。

甚至数据可视化技术的领导者Tableau也正在使用自然语言处理(NLP)和其他机器学习(ML)工具推出会话分析功能,允许用户以简单的英语提出查询要求,并收到最优可视化效果。

这对数据科学家而言究竟意味着什么

Gartner认为,在两年内,即到2020年前,公民数据学者(即citizen data scientist)所完成的高级分析将在数量上和价值上超越数据科学家。他们建议数据科学家专注于专业问题,并将企业级模型嵌入到应用程序中。

不同意此想法,这似乎会使数据科学家降级去做QA和产品实施(Implementation)的工作。这不是我们的本职工作。

我的看法是,由于较小的数据科学家团队能够处理越来越多的项目,这将迅速将高级分析的使用范围扩大到更深入的项目组织层次。

在一两年之间的我们的技术已经整合了数据科学家必备的数据混合以及数据清洗功能,以及选择最适合某个项目的预测算法的能力。这正是自动无代码化数据科学工具正在取代的领域。

需要创建,监控和管理成百上千个模型的公司是这种技术最早的采用者,特别是保险和金融服务行业。

那还剩下了什么?剩下了分析优化师的高级角色。麦肯锡最近认为这是任何数据科学项目中最重要的角色。简而言之,分析优化师的工作如下:

1、引导并识别在公司业务中,在哪里数据分析可以发挥作用。

2、优化分析的流程排序。

3、在项目中,能够胜任项目经理。

4、积极采用有效优化成本效益解决方案。

换句话说,将业务问题转化为数据科学项目,并引导优化各种类型的风险和成果,使这些项目优先化。

那所谓的人工智能呢?

是的,我们最近在图像,文本和语音处理中使用卷积神经网络(CNNs)和递归神经网络(RNNs)的最新进展中,也正在促进迅速推广自动化无代码化的解决方案。它们发展的速度还不够快,是因为缺少具有深度学习技能的数据科学家,这个问题比普通的数据科学行业还要严重。

微软和谷歌都在去年推出了自动深度学习平台。这些平台从迁移学习起步,正朝向完整的AutoDL平台进发。详细请参阅微软 Custom Vision Services和Google的类似条目Cloud AutoML。

还有一些研究集成AutoDL平台的初创公司。我们今年早些时候关注了OneClick.AI。它们包括了完整的AutoML和AutoDL平台。 Gartner最近提名DimensionalMechanics称其拥有AutoDL平台的“5大炫酷公司”之一。

曾经有一段时间,我试图持续更新和整合无代码化AutoML和AutoDL的供应商列表,并提供有关其功能的更新。但因为该行业的快速发展,使得这个整合的工作量急速上升。

我希望Gartner或其他一些团队能够继续全面的对这个领域进行关注。在2017年,Gartner做了一个相当详细的报告,名为“未来数据和分析的深度分析技术”。这是一个非常棒的供应商总结报告,虽然有一些我留意的供应商并没有被囊括其中。
报告链接:https://www.gartner.com/doc/3773164/augmented-analytics-future-data-analytics

【笔记】
  • 明确自身发展目标
  • 了解文中提及的数据科学工具
  • 加强数据科学理论学习,而非过分拘泥于代码
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值