https://www.toutiao.com/a6697839499709252109/
2019-06-02 15:58:01
- 来自麻省理工学院和其他地方的研究人员开发了一种交互式工具,这是第一次让用户查看和控制越来越流行的自动机器学习
麻省理工学院的科学家们第一次开发出一种交互式工具,允许用户查看和控制自动化机器学习系统的工作方式。被称为ATMSeer的交互式可视化工具,可帮助用户分析搜索到的模型并优化搜索空间。
为了减轻开发机器学习(ML)模型的难度,已经提出了自动机器学习(AutoML)方法。AutoML不是手动搜索算法和调整超参数,而是自动迭代各种机器学习算法,并优化预定义搜索空间中的超参数。
AutoML受到了相当多的研究关注,并获得了广泛的普及。近年来,开发了大量用于AutoML的系统,例如ATM,SigOpt和Google Cloud AutoML。但系统作为“黑匣子”运行,这意味着他们的选择技术对用户是隐藏的。因此,用户可能不信任结果,并且发现很难根据他们的搜索需求定制系统。
这个新开发的工具将AutoML方法的分析和控制放到用户手中。它将AutoML系统,数据集和有关用户任务的一些信息作为输入。然后,它在用户友好的界面中可视化搜索过程,该界面提供有关模型性能的深入信息。
该工具ATMSeer生成一个用户友好的界面,可以显示有关所选模型性能的深入信息,以及可以调整的算法和参数的选择。
麻省理工学院信息与决策系统实验室(LIDS)的首席研究科学家Kalyan Veeramachaneni表示,“我们让用户选择并了解AutoML系统的工作原理”。我们让用户选择并查看AutoML系统的工作方式。“
在科学研究生的研究中,科学家发现使用ATMSeer的85%的参与者对系统选择的模型充满信心。
Micah Smith是电气工程和计算机科学系(EECS)的研究生,也是LIDS的研究员,他说:“Micah Smith是电气工程和计算机科学系(EECS)的研究生,也是LIDS的研究员。 ”
香港科技大学的主要作者王倩雯说:“数据可视化是人与机器之间更好协作的有效方法。ATMSeer举例说明了这一想法。ATMSeer将主要受益于机器学习从业者,无论他们的领域,[谁]具有一定的专业水平。它可以减轻手动选择机器学习算法和调整超参数的痛苦。“
自动调整模型(ATM)是这个新工具的核心,它在尝试将模型与数据相匹配时对所有搜索结果进行编目。它将任何数据集和编码预测任务作为输入。它随机选择一个算法类 - 例如神经网络,决策树,随机森林和逻辑回归 - 以及模型的超参数,例如决策树的大小或神经网络层的数量。
然后,系统针对数据集运行模型,迭代地调整超参数,并测量性能。它使用了解该模型的性能来选择另一个模型,等等。最后,系统为任务输出几个表现最佳的模型。
诀窍在于每个模型基本上可以被视为具有一些变量的一个数据点:算法,超参数和性能。在这项工作的基础上,研究人员设计了一个系统,在指定的图形和图表上绘制数据点和变量。从那时起,他们开发了一种独立的技术,可以让他们实时重新配置数据。
香港科技大学的主要作者王文文说:“类似的可视化工具专门用于分析一种特定的机器学习模型,并允许有限的搜索空间定制。因此,它们为AutoML过程提供有限的支持,其中需要分析许多搜索模型的配置。相比之下,ATMSeer支持分析使用各种算法生成的机器学习模型。“
ATMSeer的界面由三部分组成。控制面板允许用户上传数据集和AutoML系统,并启动或暂停搜索过程。下面是一个概览面板,显示基本统计数据 - 例如搜索的算法和超参数的数量 - 以及按降序排列的最佳表现模型的“排行榜”。
ATMSeer包含一个“AutoML Profiler”,其中的面板包含有关算法和超参数的深入信息,这些信息都可以进行调整。一个面板将所有算法类别表示为直方图 - 一个条形图,显示算法性能分数的分布,范围为0到10,具体取决于它们的超参数。一个单独的面板显示散点图,可以显示不同超参数和算法类的性能折衷。
结果表明三个主要因素 - 搜索的算法数量,系统运行时间以及查找表现最佳的模型 - 确定用户如何自定义其AutoML搜索。该信息可用于为用户定制系统。
麻省理工学院信息与决策系统实验室(LIDS)的首席研究科学家Kalyan Veeramachaneni说:“我们刚刚开始看到人们使用这些系统并做出选择的不同方式的开始。那是因为现在这些信息都在一个地方,人们可以看到幕后发生的事情,并有能力控制它。“