数据挖掘之数据验证的指导原则

数据挖掘中,数据质量至关重要,影响模型性能和稳定性。可靠性的确认、版本控制、必要性评估、相关性分析及循环反馈是数据验证的重要原则。确保数据来源可靠,避免因系统变化影响数据,权衡特征的必要性和相关性,以及处理模型间的反馈效应,对于提升模型效果和降低维护成本至关重要。
摘要由CSDN通过智能技术生成

以下来自最近的读书笔记。

数据挖掘和机器学习很重要的基础是数据,数据的质量好坏决定了模型的性能和稳定性。

所以,我们需要实时审视我们的数据,以下是一些做数据验证的指导原则。

1、可靠性

关于输入数据的可靠性的一些问题:

信号总是可用还是来自不可靠的来源?

信号是否来自在重负载下崩溃的服务器?

信号是来自特殊人群,如每年八月去度假的人吗?

2、版本控制

关于版本控制的一些问题:

计算这些数据的系统会改变吗? 如果是这样的话:

有多经常?

您如何知道该系统何时发生变化?

有时,数据来自上游流程。 如果该过程突然发生变化,您的模型可能会受到影响。

考虑为从上游流程收到的数据创建自己的副本。 然后,只有在您确定这样做是安全的情况下才前进到上游数据的下一个版本。

3、必要性

以下问题可能会让您想起正则

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只要开始永远不晚

谢谢打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值