引导分析原则

最新推荐文章于 2021-04-21 16:06:14 发布

Tybyqi

最新推荐文章于 2021-04-21 16:06:14 发布

阅读量390

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/Tybyqi/article/details/84141989

版权

大数据专栏收录该内容

74 篇文章 2 订阅

订阅专栏

自动化数据科学的系统最近引起了很多关注。与智能家居助手类似，为企业用户自动化数据科学仅适用于定义明确的任务。我们不希望家庭助理就改变主题进行深入的对话。事实上，最成功的系统严重限制了可能的交互类型，无法处理模糊定义的主题。真正的数据科学问题同样含糊不清：只有业务分析师和数据分析师之间的交互式交流才能在新的有用方向上引导分析，从而可能引发有趣的新见解并进一步加强分析。

因此，一旦我们离开完全自动化的数据科学沙箱领域，挑战在于允许数据科学家构建交互式系统，以交互方式协助业务分析师寻求新的数据洞察并预测未来结果。KNIME将此称为“引导式分析”。 他们明确表示不会更换驱动程序（或完全自动化流程），而是在整个分析过程中随时提供帮助和收集反馈。为了实现这一目标，数据科学家需要能够轻松创建分析应用程序，以便在需要专业知识和反馈时与业务用户进行交互。

引导分析的环境

是什么使数据科学家团队能够协作合并他们的专业知识并构建这样一个交互式，甚至是自适应分析应用程序？为业务用户提供适当数量的指导和互动的应用程序？

理想情况下，这样的环境会有一些属性：

开放性。环境不会在使用的工具方面发布限制 - 这也简化了脚本大师（例如R或Python）与其他只想重用其专业知识而不深入其代码的人之间的协作。能够在同一环境中接触特定数据类型（文本，图像等）或专用高性能或大数据算法（如H2O或Spark）的其他工具将是一个优势;

均匀性。同时，创建数据科学的专家可以在同一环境中完成所有工作：混合数据，运行分析，混合和匹配工具，以及构建基础架构以将其部署为分析应用程序;

灵活性。在分析应用程序的下方，我们可以运行简单的回归模型或编排复杂的参数优化和集合模型 - 范围从一个到数千个模型。这个（或至少它的某些方面）可以完全隐藏在业务用户之外;

敏捷。一旦应用程序在野外使用，新的需求将迅速出现：更多的自动化，更多的消费者反馈。用于构建这些分析应用程序的环境需要使数据科学团队的其他成员能够直观地将现有分析应用程序快速适应新的和不断变化的需求。

简而言之，具有不同偏好和技能的数据科学家需要协作构建，维护和不断完善一组分析应用程序，从而向业务用户展示高度不同的交互程度。其中一些应用程序只需按一下按钮即可显示概述或预测。其他人只允许最终用户选择要使用的数据源。其他人将向用户询问反馈，最终改进在引擎盖下训练的模型，并考虑用户的专业知识。这些模型可以是简单的或任意复杂的集合或整个模型系列，最终用户可能会或可能不会被要求帮助改进该设置。

自动什么？

那么所有这些无人驾驶，自动，自动化的AI或机器学习系统如何适应这种情况呢？他们的目标是封装（和隐藏）现有专家数据科学家的专业知识，或者应用或多或少复杂的优化方案来微调数据科学任务。如果没有内部数据科学专业知识，这可能很有用，但最终，业务分析师被锁定在预先打包的专业知识和有限的硬编码方案集中。

数据科学家的专业知识和参数优化都可以轻松地成为指导分析工作流程的一部分。由于任何类型的自动化往往总是错过重要且有趣的部分，因此添加引导分析组件使其更加强大：您可以指导优化方案并将预编码的专业知识调整为手头的新任务。

KNIME中的引导分析

数据科学家团队使用KNIME工作流程进行协作，并通过KNIME Server的Web界面为其业务分析师同事提供访问这些工作流程的权限。无需使用其他工具来构建Web应用程序; 工作流本身模拟构成分析应用程序的交互点（简单的UI元素或复杂的交互式可视化）。工作流是将所有工具组合在一起的粘合剂：数据科学团队的不同成员使用的不同工具，数据工程专家从各种来源混合的数据，以及对最终用户可见的UI组件建模的交互点。

下图显示了此类工作流程的说明性示例：

几个灰色元节点代表工作流的“交互点”：构建此工作流的数据科学家设计它们，以便在KNIME服务器上执行时，工作流允许在分析中的这些点与其他业务分析师进行交互。在示例工作流程中，第一个交互点允许业务分析人员选择要分析的数据集（“选择数据”）。加载数据后，第二个交互点（“数据清理”）显示数据概览，并允许业务分析师进行交互：删除无用的列，处理异常值，修复偏斜的分布 - 无论数据科学家认为哪些有趣且相关这点。

中间的部分现在进行分析，并允许业务分析师提供反馈，直到达到令人满意的结果。工作流程通过允许分析人员直接将模型部署到 - 在这种情况下 - 数据库或在交互式仪表板中检查结果来结束。这些节点中的每一个都通过一组交互式可视化节点来模拟用户交互，这些节点使用与KNIME中其他地方完全相同的工作流模式，允许数据科学家基本上设计一个捕获业务分析师反馈的网页。下图显示了我们的“Analytics Interaction Point”的内部结构，以及从该节点为指导分析应用程序自动创建的页面。

通过KNIME Server部署分析应用程序是跨团队边界协作的一个方面。另一个重要方面是可重用性：KNIME Server还允许跨数据科学团队共享元节点，使其他人能够在现有部分之上构建：如上所述的交互点以及其他元节点，这些元节点可以封装预先打包的数据混合，不同类型的分析，显然也是（半）自动ML或无人驾驶（辅助）AI的化身。

引导分析：旅程在哪里？

KNIME对引导分析非常感兴趣。最初，这通常仅用作强大的交互式数据探索和清理机制，但越来越多的用户开始将分析添加到组合中，并允许用户对数据进行争论并对其分析进行微调。这也促进了协作：通过对整个设计的可视化工作流程的一致使用，数据科学家不断重复使用现有的工作，并创建越来越复杂的指导分析工作流程。管理模型工厂，通过结合主动学习方法交互式地改进模型，半自动机器学习都只是该框架的组成部分。看看数据科学家如何继续构建更加强大的并行工作的分析应用程序，这将是非常有趣的，协助专家用户创建真正有用的分析。而不是将专家从驾驶员座位中取出并试图使他们的智慧自动化。

Tybyqi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
引导分析原则

自动化数据科学的系统最近引起了很多关注。与智能家居助手类似，为企业用户自动化数据科学仅适用于定义明确的任务。我们不希望家庭助理就改变主题进行深入的对话。事实上，最成功的系统严重限制了可能的交互类型，无法处理模糊定义的主题。真正的数据科学问题同样含糊不清：只有业务分析师和数据分析师之间的交互式交流才能在新的有用方向上引导分析，从而可能引发有趣的新见解并进一步加强分析。因此，一旦我们离开完全自动化...
复制链接

扫一扫

专栏目录