独家|一文解读合成数据在机器学习技术下的表现

本文通过对比分析合成数据与有限的“有机”数据,探讨了在多层感知器(MLP)、支持向量机(SVM)和决策树(DT)等机器学习技术下,合成数据的效果。研究发现,增加尖峰或平台数量并不总能提升学习性能,而决策树在使用平台数据时表现出色。实验揭示了合成数据在模型训练中可能带来的改进,但结果具有一定的推测性,需要进一步研究验证。
摘要由CSDN通过智能技术生成

640?wx_fmt=png

作者:Eric Le Fort

翻译:蒋雨畅

校对:卢苗苗

本文约3200字,建议阅读12分钟。

本文将通过介绍两个分布模型,并运用它们到合成数据过程中,来分析合成数据在不同机器学习技术下的表现。


想法

 

相比于数量有限的“有机”数据,我将分析、测评合成数据是否能实现改进。

 

动机

 

我对合成数据的有效性持怀疑态度——预测模型只能与用于训练数据的数据集一样好。这种怀疑论点燃了我内心的想法,即通过客观调查来研究这些直觉。

 

需具备的知识

 

本文的读者应该处于对机器学习相关理论理解的中间水平,并且应该已经熟悉以下主题以便充分理解本文:


  • 基本统计知识,例如“标准差”一词的含义

  • 熟悉神经网络,SVM和决策树(如果您只熟悉其中的一个或两个,那可能就行了)

  • 了解基本的机器学习术语,例如“训练/测试/验证集”的含义

 

合成数据的背景

 

生成合成数据的两种常用方法是:


  • 根据某些分布或分布集合绘制值

  • 个体为本模型的建模

 

在这项研究中,我们将检查第一类。为了巩固这个想法,让我们从一个例子开始吧!

 

想象一下,在只考虑大小和体重的情况下,你试图确定一只动物是老鼠,青蛙还是鸽子。但你只有一个数据集,每种动物只有两个数据。因此不幸的是,我们无法用如此小的数据集训练出好的模型!

 

这个问题的答案是通过估计这些特征的分布来合成更多数据。让我们从青蛙的例子开始


参考这篇维基百科的文章:

https://en.wikipedia.org/wiki/Common_frog ,只考虑成年青蛙。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值