[机器学习] ：到底需要多少数据？理论分析来告诉你

最新推荐文章于 2024-01-27 10:51:36 发布

hxcaifly

最新推荐文章于 2024-01-27 10:51:36 发布

阅读量3.9k

点赞数 2

分类专栏：数据挖掘和机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxcaifly/article/details/82106708

版权

本文探讨了在机器学习中确定有效数据量的重要性，涵盖了数据粒度、数据量与特征量比例、特征间相关性和有效性以及数据量与模型选择的关系。指出数据不是越多越好，而是需要与特征数平衡，并强调了数据质量和人为经验在模型构建中的关键作用。

摘要由CSDN通过智能技术生成

1. 前言

机器学习中最值得问的一个问题是，到底需要多少数据才可以得到一个较好的模型？从理论角度，有Probably approximately correct (PAC) learning theory来描述在何种情况下，可以得到一个近似正确的模型。但从实用角度看，PAC的使用范围还是比较局限的。

所以今天我们主要想讨论一个问题：到底如何定义有效数据量。

2.数据的粒度

数据的粒度可以理解为数据的细分程度，或者具体程度。举个简单例子，我们想预测股票的走势，那么我们可以得到以下历史数据：

每秒钟的交易数据
每分钟的交易数据
…
每年的交易数据
换成另一个场景，如果我们打算对一个句子进行截断，“我今天真高兴”，那么结果可以是：

我 | 今 | 天 | 真 | 高 | 兴
我今 | 今天 | 天真 | 真高 | 高兴
我今天 | 天真高 | 高兴X
随着细分程度的改变，那么数据量也有明显的变化。数据的粒度越细，数据量越大。一般来说，我们追求尽量细分的数据，因为可以通过聚合（aggregation）来实现从具体数据到宏观数据的还原，但反之则不可得。

但是不是数据越具体越好？不一定，过于具体的数据缺失了特征，有效的特征仅在某个特定的粒度才存在。打个比方，人是由原子、分子、细胞、组织、器官构成，但在分子层面我们不一定能分辨它是人，只有到达一定的粒度才可以。因此，数据收集的第一个重点是搞清楚，在什么粒度可以解决我们的问题，而不是盲目的收集一大堆数据，或者收集过于抽象的数据。

最低0.47元/天解锁文章

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。