AI 创造 AI有可能？两小时就能快速建模

最新推荐文章于 2024-10-16 10:34:35 发布

chuoyu6308

最新推荐文章于 2024-10-16 10:34:35 发布

阅读量2.9k

点赞数

文章标签：人工智能

原文链接：https://my.oschina.net/u/4024424/blog/3069622

版权

玛丽．雪莱在创作世界上第一部科幻小说《科学怪人》（又译：法兰克斯坦）的时候，恐怕没法预见到在一个多世纪后的今天，真的会出现一种脱胎于虚无，却能判断、能决策的存在。人工智能（AI）自动化近年来受到了广大的关注，但在真正的建模工程师和业务人员眼中，却一直只是玩具级别的应用。不但限制重重，繁琐的编程和抽象的参数设置对于菜鸟用户来说，也远远称不上「自动化」。谁能想到，早在 2015 年，硅谷就成立了一家致力于开发「帮助创造 AI」的 AI 公司。日前，R2.ai 的创始人兼 CEO 黄一文接受了采访，讲述他们对于人工智能自动化行业的发展趋势以及产品技术核心的认识。

回归本质：业务专家才是机器学习问题的最适解决者

AutoML（Automated machine learning）对于人工智能小区来说并不能说是一个新潮的概念，国内国外的企业都陆续推出了自己的 AutoML 平台。但这些平台的用户和服务对象往往是建模工程师，虽然能很大程度上提升建模工程师的工作效率，但对于常变常新的业务问题来说，却仍然慢了半拍。事实上，六年前的机器学习自动化产品就已经能够在十几分钟内解决 TB 级数据的建模问题了，但对于希望在业务中应用机器学习的企业来说，往往苦于寻找优秀的建模工程师和探索真正有用的应用场景；即便对于已经开始了机器学习应用的企业来说，缓慢的开发速度和低下的模型质量也往往使得企业在高昂的投入面前望而却步。

换句话说，「传统的建模流程 + 超高速的机器学习自动化平台」这一模式并没有突破企业在实际应用中解决机器学习的瓶颈。「我们认为业务人员其实是最适合应用机器学习来解决问题的角色，让正确的人使用正确的工具来解决正确的问题，是我们想要达到的效果」，黄一文说。要最大化地利用企业的数据，让需求多样的企业真的能够在业务当中落实机器学习技术，一个普遍性强、简单易用且高度自动化的优质机器学习平台是不可或缺的。而这恰恰是 R2 Learn 2.0 的技术特点。

菜鸟的福音，数据科学家的得力助手

在 R2 Learn 2.0 中，R2.ai 为业务问题提供了一个端到端、高自动化的机器学习解决方案。黄一文表示，具有广泛适用性的 AutoML 类产品对于产品化、优化及模型集成丰富度的要求很高，在 R2 Learn 2.0 中，用户甚至仅需鼠标操作，不断根据平台的提示进行选择，就可以在上传数据后迅速建立模型。不仅如此，在自动建模的过程中，R2 Learn 2.0 还实现了数据清洗及修复、特征工程、模型评估等传统建模过程单元的自动化。如在上图中，用户通过 R2 Learn 平台，可发现该数据集存在两个问题：

目标变量有 3 个水平值

预测变量里存在缺失值和数据类型错配

解决这些问题，用户仅需点击 Continue，平台就会引导用户选择目标变量中的唯一值，并对预测变量数据质量问题进行自动修复。通过这样傻瓜式的引导，即便是毫无机器学习知识和经验的业务人员也能快速为业务问题进行针对性建模，从而实时满足业务需求。而对于掌握有机器学习领域知识的数据科学家或分析师来说，R2 Learn 2.0 平台还提供了高级编辑模式，用户不但能够看到模型从数据预处理到模型评估的全过程，还能根据自己的经验和偏好对模型进行调整，这也体现了平台的高度透明性和可解释性。

自动学习，自动调参：AutoML 迎来改变

对任何一个建模工程师来说，从 0 开始建立一个模型都足以成为不眠之夜的噩梦。谈到传统建模过程的复杂性时，黄一文说道：「建模的挑战主要是由建模过程在每一个步骤都有多元选择造成的，比如修复数据质量可能就有三四种不同的方式，变量工程有十几种不同的方式，算法的选择和算法的参数调整空间就更大了。这些选择会使得建模的复杂性指数型上升。」相关信息来源：http://www.ai.org.tw/map.asp

从本质上讲，无论是对于人类工程师还是机器，建模都是一个不断试错的过程。人类的优势在于可以凭借经验和直觉找到一个不错的试错起点，但这不仅对建模工程师有很高的要求，还会使得模型的成功在很大程度上依赖于运气。而对于机器来说，不断尝试正是机器最适合做的事情，辅以高效的优化算法，机器可以在短时间内尝试大量模型并向用户推荐最优结果。R2 Learn 2.0 充分利用机器的算力优势，并开发了自学习和自动调参技术来进一步提升平台的效率和模型的准确性。「如果模型的原始参数与最佳值相距较远，模型可能会很难收敛，也可能很容易发散到其他地方。为了找到一个合适的原始参数，我们的平台有一套基于增强学习的知识库，当用户上传了数据开始建模时，我们会将用户的数据与我们知识库的数据进行精准的配对，从而使得模型从一个比较合理的超参数开始搜索。」黄一文介绍道。

两小时建模，全生命周期管理

效率问题是自动化机器学习需要解决的首要问题。「要让机器学习自动化工具在企业中真正落实，我们必须实现端到端的自动化建模」，黄一文说道：「数据修复、特征工程、模型选择、模型调参、模型组合等步骤其实都是相互关联的，自动化及优化的程度越高，模型要搜索的空间也就越大，而且是成百上千倍地扩大。」自动化建模实际上是一个搜索优化问题。即在所有的选项中，用最短的时间找到最优解。为了解决这一问题，R2.ai 基于强化学习、遗传算法等开发了五种不同的优化算法，使得平台能够在非常短的时间内用尽可能少的资源找到最佳模型。

R2 Learn 2.0 的高效在很多应用场景中都得到了体现，在一个金融行业的应用案例中，R2 Learn 2.0 需要在保证高准确性的情况下帮助一个避险基金公司建立人工智能交易模型。在将近 100 万行和超过 80 个变量的数据集上，R2 Learn 2.0 在两小时内建出了一个 AUC 为 0.78 的模型，比原来的模型质量提高了 12%。「模型有不同的特点，有些模型建模速度非常快，有些模型精度非常高，有些模型效率非常高。而在金融场景中，模型的选择是非常关键的」，黄一文向我们继续介绍：「我们为 R2 Learn 2.0 设计了一个独特的仿真优化技术，用户可以将场景信息输入到模型中，系统会据此对模型进行重新优化，从而找到一个真正可以满足用户风险收益平衡需求的模型。」除了效率问题以外，准确性问题也是自动化机器学习工具无法回避的挑战。通过端到端的全链建模流程整体优化，而不是几个步骤的局部优化，这是 R2.ai 可以生成更优异性能模型的法宝。建模的每一步都是互相关联的。整体优化包括的步骤越多，生成优异模型的机率越高。当然，这同时意味着对优化算法的要求相应提高，这恰恰是 R2.ai 超越竞争对手的技术壁垒。

在一个医疗领域的案例中，医院希望能够通过病人的特征数据和诊断数据预测并控制病人的再入院率。R2 Learn 2.0 通过对病患的画像、患病史、医疗诊断指针、入院记录等海量数据的分析，运用机器学习建模技术，成功地在短时间内构建了 AUC 达 0.846 的模型。该结果成为了医院管理者分析并控制再住率的有效依据，大幅降低了出院病人的再入院成本，还可以给予患者更适合个人的医疗选项，提升患者的治疗体验。除此之外，R2 Learn 2.0 还将全生命周期管理的概念首次植入到了机器学习自动化领域中。黄一文谈道：「大部分企业现在主要关注的问题还是怎样建出更好的模型，但实际上模型的运营也是非常重要的，这就会涉及到模型的全生命周期管理问题。」任何机器学习模型都是基于历史数据开发出来的，而历史数据反映的是过去的商业状况，所以模型其实是有保鲜期的。「企业应该时刻监督模型在实际应用当中的性能，并不断用新的数据去实时优化旧的模型，这样才能为模型『保鲜』。」黄一文如此建议。

业务问题，而不只是机器学习

「我们希望企业可以用 98% 的时间来解决业务问题，而不是机器学习问题」，谈到整个人工智能和数据行业的未来发展时，黄一文这样说道。「技术最终是服务于业务的，所以我认为机器学习工具的发展方向是让用户更快更有效地解决业务问题，与商业更好更深结合。」外媒 Interesting Engineering 在报导 R2.ai 这家近年来快速增长的公司时使用了「new generation（新世代）」一词，我们也确实看到 R2.ai 为人工智能在应用当中从 0 到 1 的落实迈出了坚实的一步。「企业落实人工智能基本上可以有两种方法，第一种是基于系统规划，企业通过采集大量数据，搭建基础设施，一步一步地落实人工智能。而另外一种更推荐的方式则是先用现有的数据找到一个可以落实的场景，从小到大，而不是从大到小地开始建模。这样能大大降低人工智能落实的成本，也给企业更多的正反馈来进一步应用人工智能」。黄一文为我们补充道。

那么，数据科学家会失业吗？

社会自动化水平的提高让我们不得不面对严峻的就业形势，人工智能的广泛应用更是让大量行业的从业者面临着失业危机，在谈到数据行业从业者的职业问题时，黄一文乐观地与我们分享道：「从历史上来看，人类文明中每一个新技术的出现往往伴随着新行业的出现；自动化水平的提高往往伴随着新工作机会的出现，失业率不但不会提高，甚至还有可能降低。」人工智能行业的发展速度往往给人一种日新月异的感觉，但谈到未来发展时，黄一文却显得很自信：「其实有很多技术我们在研究室当中已经做出来了，比如非监督学习，很快我们的用户就可以在群聚、异常检测、推荐等业务场景下应用自动化的机器学习了。」另外，目前的 R2 Learn 2.0 平台还只支持结构化的数据，在采访的最后黄一文也表示将在未来一年着手支持自然语言处理和计算器视觉的应用场景，将非结构化数据的处理也纳入到 R2 Learn 2.0 的自动化范畴之内。

「现在有很多人发表言论说人工智能也许会摧毁人类文明。我认为他们的思维是局限在有限的生存空间内的，但事实上我们所处的世界远远不止我们现在所了解的范围，AI 最大的存在价值之一就是它能够帮助我们去探知未来的世界。」黄一文继续说道：「R2 Learn 2.0 就是一个泛用性很强的 AI，未来我们想做的就是帮助企业去探知更多他们还没有了解的世界。中国人讲授人以鱼不如授人以渔，当人人可用的 AI 出现之后，企业一定能更深入地理解业务，不断开拓新的业务边界。」

转载于:https://my.oschina.net/u/4024424/blog/3069622