数据挖掘的十大错误现象(翻译)

最新推荐文章于 2019-01-31 10:36:59 发布

hanyankai

最新推荐文章于 2019-01-31 10:36:59 发布

阅读量612

点赞数

分类专栏：数据挖掘与机器学习文章标签：数据挖掘 output training 工作 each 电话

数据挖掘与机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

如果你有下列行为之一，那你就犯错误了：You've made a mistake if you…
0. 缺少数据Lack Data
1. 热衷于训练Focus on Training

　　在癌症检测的项目中，医生和研究人员在使用神经网络训练数据时惊奇发现：训练长时间(几周或几天)的训练对结果的提高是有限的，更多时候会有更糟糕的评估结果。
2. 依赖于一种技术Rely on One Technique

"To a little boy with a hammer, all the world's a nail." （如果一个人拥有一把锤子，那么全世界都是钉子）
For best work, need a whole toolkit.（为了更好的工作，需要一整个工具箱）
3. 问错误的问题(即试图达到一个错误的目标)Ask the Wrong Question

a)项目目标

在电话欺诈检测的项目中，不要试图去分类一般呼叫的欺诈和非欺诈，而是要标注每一个账户的正常行为，

然后标记离群，就会取得成功

b)模型目标

例如在员工股份分红中，大多数研究者热衷于平方差，因为这样简单方便。但是我们应该让计算机做对系统最有帮助的，而不是最容易的。
4. 仅听从于数据Listen (only) to the Data
5. 接受(容忍)漏洞Accept Leaks from the Future
6. 认为烦人的实例不重要 Discount Pesky Cases
7.推断 Extrapolate

试图从最初的几次试验就获得太多的信息

在发现巨大错误还很难去除不正确的想法

维度祸根：低维度中的直觉在高维度中用处不大
8. 回答每一个询问(这里为输入更合适)Answer Every Inquiry
不知道是一个有用的模型输出状态 "Don't Know" is a useful model output state

能够估计到每个输出的不确定性 Could estimate the uncertainty for each output

9. 随意采样 Sample Casually
10.太迷信所谓最佳模型 Believe the Best Model

a)我们并不总是需要可解释性，模型可以是有用的但不具有"正确性"和可解释性

b)通常，许多相似的变量可以用，而且所谓最好模型的特定结构可能变化复杂。但是结构简单不等于功能简单，一些竞争模型往往看起来不同 (简单)，但能够同样工作。

hanyankai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘的十大错误现象(翻译)

如果你有下列行为之一，那你就犯错误了：Youve made a mistake if you…0. 缺少数据Lack Data1. 热衷于训练Focus on Training　　在癌症检测的项目中，医生和研究人员在使用神经网络训练数据时惊奇发现：训练长时间(几周或几天)的训练对结果的提高是有限的，更多时候会有更糟糕的评估结果。
复制链接

扫一扫

专栏目录