数据挖掘的十大错误现象(翻译)

如果你有下列行为之一,那你就犯错误了:You've made a mistake if you…
0. 缺少数据Lack Data
1. 热衷于训练Focus on Training

  在癌症检测的项目中,医生和研究人员在使用神经网络训练数据时惊奇发现:训练长时间(几周或几天)的训练对结果的提高是有限的,更多时候会有更糟糕的评估结果。
2. 依赖于一种技术Rely on One Technique

"To a little boy with a hammer, all the world's a nail." (如果一个人拥有一把锤子,那么全世界都是钉子)
For best work, need a whole toolkit.(为了更好的工作,需要一整个工具箱)
3. 问错误的问题(即试图达到一个错误的目标)Ask the Wrong Question

a)项目目标

在电话欺诈检测的项目中,不要试图去分类一般呼叫的欺诈和非欺诈,而是要标注每一个账户的正常行为,

然后标记离群,就会取得成功

b)模型目标

例如在员工股份分红中,大多数研究者热衷于平方差,因为这样简单方便。但是我们应该让计算机做对系统最有帮助的,而不是最容易的。
4. 仅听从于数据Listen (only) to the Data
5. 接受(容忍)漏洞Accept Leaks from the Future
6. 认为烦人的实例不重要  Discount Pesky Cases
7.推断 Extrapolate

试图从最初的几次试验就获得太多的信息

在发现巨大错误还很难去除不正确的想法

维度祸根:低维度中的直觉在高维度中用处不大
8. 回答每一个询问(这里为输入更合适)Answer Every Inquiry
不知道是一个有用的模型输出状态 "Don't Know" is a useful model output state

 能够估计到每个输出的不确定性      Could estimate the uncertainty for each output

9. 随意采样 Sample Casually
10.太迷信所谓最佳模型   Believe the Best Model

a)我们并不总是需要可解释性,模型可以是有用的但不具有"正确性"和可解释性

b)通常,许多相似的变量可以用,而且所谓最好模型的特定结构可能变化复杂。但是结构简单不等于功能简单,一些竞争模型往往看起来不同 (简单),但能够同样工作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值