理解和可视化机器学习中的数据迭代

最新推荐文章于 2022-08-01 17:30:58 发布

bananalone

最新推荐文章于 2022-08-01 17:30:58 发布

阅读量2k

点赞数 3

分类专栏：数据可视化深度学习文章标签：可视化机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bananalone/article/details/106719785

版权

深度学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

数据可视化

4 篇文章 0 订阅

订阅专栏

论文地址: Understanding and Visualizing Data Iteration in Machine Learning

理解和可视化机器学习中的数据迭代

概览
绪论
背景及相关工作
理解数据迭代
可视化数据迭代：动机和任务
CHAMELEON: 不断变化数据的可视化分析
未来数据迭代工具的商机

概览

在这里插入图片描述

绪论

在这里插入图片描述
一个传统的机器学习过程包括模型迭代和数据迭代，ML中有句俗语：垃圾输入，垃圾输出，说明了数据对于模型的重要性，机器学习研究人员经常通过迭代数据来提高模型性能，本文的研究主要集中在数据迭代上。

背景及相关工作

在本文中，我们将数据探索可视化技术扩展到随着模型开发时间的变化而变化的机器学习数据集，包括一种新的可视化方法，用于显示包含模型性能和支持数据版本比较的特征分布。

理解数据迭代

为什么要迭代数据

数据引导建模
数据提高性能
世界在变，数据也在变

数据迭代常用方法

Add
- 添加采样实例
- 添加特定实例
- 添加合成实例
- 添加标签
Remove
- 移除实例
Modify
- 修改特征、标签

数据迭代的挑战

跟踪试验和迭代历史
何时"解冻"数据版本
何时停止收集数据
手动故障案例分析
创建数据黑名单

可视化数据迭代：动机和任务

动机：用交互式可视化来了解数据演化如何影响模型性能
任务：

跟踪和追溯数据版本上的数据迭代和模型度量
属性模型度量更改为数据迭代
通过训练、测试分割，性能（例如，正确的v.错误的预测）和数据版本（C2、C3、C5）来比较特征分布
了解数据版本对模型的敏感性

CHAMELEON: 不断变化数据的可视化分析

在这里插入图片描述

数据版本时间线：随时间变化的数据迭代
特征视图：可视化演化分布
侧栏：可视化演化实例预测

A. 聚合嵌入：通过数据降维输出的离散化摘要图显示主数据版本，此图为用户提供了数据集的概述，对于发现类似实例的潜在集群非常有用
B. 预测变化矩阵：显示了两个版本中存在的实例子集，并通过它们的预测正确性和版本对它们进行了划分
C. 灵敏度直方图：显示了数据实例对所选版本范围内版本的预测敏感度

未来数据迭代工具的商机

数据和模型迭代的接口
帮助实验性切换的数据迭代工具
数据作为跨用户专业技能的共享连接
从数据编程中可视化概率标签
限制：其他数据类型的可视化

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
理解和可视化机器学习中的数据迭代

论文地址: Understanding and Visualizing Data Iteration in Machine Learning理解和可视化机器学习中的数据迭代摘要绪论背景及相关工作理解数据迭代为什么要迭代数据数据迭代常用方法摘要成功的机器学习（ML）应用程序需要对建模和底层数据进行迭代。虽然先前的ML可视化工具主要集中在建模上，但我们对23位ML实践者的采访显示，他们经常通过迭代数据（例如收集新数据、添加标签）而不是模型来提高模型性能。我们还确定了常见的数据迭代类型以及相关的分析任务.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。