新手数据科学家最容易踩的5个坑，来看看你有没有中招

ronghuaiyang

于 2018-12-14 07:45:34 发布

阅读量171

点赞数 1

本文链接：https://blog.csdn.net/u011984148/article/details/99439669

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Jan Zawadzki

编译：ronghuaiyang

前戏

看这篇文章的时候，我是很有感触的，大部分坑我都踩过，有很多同学刚毕业参加工作，或者刚转行进入大数据领域，对于学生来说，在学习里可能更多的是关注与模型的优化，算法的提升，而数据一般来说都是固定的，因为这样才可以评估出不同算法的优劣，但是来到公司之后，一切反过来了，算法，模型可能大家都用的一样，数据就成了决定最终结果的关键。这篇文章给了大家几个刚开始工作的数据科学家容易踩的坑，大家看看，有没有中招。

你终于成为了一个数据科学家，你参加了Kaggle的比赛，你疯狂的看Coursera的课程。你感觉已经准备好了，但是数据科学家的真实生活可能和你期待的不一样。

640?wx_fmt=gif

这个文章列出了早期数据科学家容易犯的5个错误，这个列表是和Dr. Sébastien Foucaud一起整理的，Dr. Sébastien Foucaud有着在学术界和工业界超过20年的指导年轻数据科学家的经验。这个博客主要是帮助你准备好做一个数据科学家的工作。

640?wx_fmt=gif

我们开始

1. 进入“Kaggle一代”

640?wx_fmt=png

你参加了Kaggle的比赛，练习你的数据科学技术。你能搭建决策树和神经网络，很不错。但是说实话，你做的并不像一个真正的数据科学家。记住一个常用的法则，将80%的时间花在处理数据上，剩下的20%时间来搭建模型。

640?wx_fmt=jpeg

成为“Kaggle一代”在很多方面是有帮助的，数据通常是清洗的很好的，你可以花很多时间来调整你的模型。但是，在实际中，并不是这样，你需要自己从不同的地方收集数据，这些数据有不同的格式，不同的命名方式。

做这些困难的工作，打磨你的技术，将你的80%时间花在数据预处理上，从API上抓图片，从Genius上收集歌词，为特定的问题准备数据，然后开始机器学习的生命周期。在数据预处理上成为专家将毫无疑问的让你成为你公司里最重要的数据科学家。

2. 神经网络是一切的解药

深度学习模型在计算机视觉和自然语言处理方面超过了其他的机器学习方法，但是也有明显的缺点。

640?wx_fmt=png

神经网络非常的吃数据，对于少量的样本，你会发现决策树或者逻辑回归模型往往更好。神经网络基本上是个黑盒子，对于可解释性这方面是声名狼藉。如果产品经理闻起来这个模型的输出，你需要解释这个模型，传统的模型就容易多了。

640?wx_fmt=jpeg

有许多优秀的统计学习模型，在这个博客里有介绍，你可以自学一下，了解一下这些模型的优缺点，根据你的使用场景来使用不同的模型。除非你的工作领域是计算机视觉或者自然语言处理，那么使用传统机器学习的可能性还是很大的。你会发现，在很多情况下，简单的模型，如逻辑回归，才是最好的模型。

640?wx_fmt=png

3. 机器学习就是产品

机器学习在过去的几十年里饱受赞誉，也承受了大量宣传带来的痛苦，许多初学者认为机器学习可以解决所有的问题。

640?wx_fmt=png

Source: Google Trends for Machine Learning of the past 5 years

机器学习本身不是一个产品，机器学习是一个创造符合用户需求的产品的强大的工具。如果用户需要准确的物品推荐，机器学习可以做到，如果用户需要准确的识别一个图像中的物体，机器学习可以做到，如果公司需要推送给用户有价值的广告，机器学习可以做到。

作为数据科学家，你需要计划一个项目，将用户的目标作为你最优先考虑的事情，然后你再评估机器学习能不能干。

4. 把原因和相关性搞混了

过去几年，产生了90%的数据，随着大数据的出现，对于机器学习的实践者来说，数据获取容易多了。这么多数据要评估，学习模型的随机相关性发生的机会也随着增加了。

640?wx_fmt=png

上面的图显示了美国小姐的年纪和所有死于蒸汽，热气和热物体的总数。给定这个数据，学习算法会学到美国小姐的年龄对于死于特定物体的人的数量的影响，反之亦然。但是实际上，这两个数据是毫不相干的。

当探索数据中的模式的时候，使用你的专业知识，是不是可能是一个原因或者有关系？回答这个问题是从数据中获取行为的关键。

5. 对错误的度量进行了优化

部署机器学习模型符合敏捷的生命周期，第一，你定义一个思想和关键的度量指标，第二，你通过构建原型给出一个结果，第三，你继续优化知道满足你的关键度量指标。

640?wx_fmt=png

当构建机器学习模型的时候，记住，自己手动去做错误分析。这个过程很艰难，很费力，不过它将帮助你在接下来的迭代里有效的提升你的模型。可以看看这个文章，里面有一些其他的提升模型的技巧，吴恩达的Deep Learning Specialization.

年轻的数据科学家对于公司的价值时间巨大的，他们年轻，通过线上课程，可以立刻产生价值，他们经常自学，有些大学提供数据科学家的学位，这个可以提供保障。他们对这个领域充满了热情，渴望学习更多的东西。记住上面提到的陷阱，成功的开始第一份数据科学家的工作。

关键点:

练习数据管理
学习不同模型的利弊
模型越简单越好
通过原因vs相关性来检查你的结论
优化最有价值的指标

英文原文链接：https://towardsdatascience.com/top-5-mistakes-of-greenhorn-data-scientists-90fa26201d51

往期精彩回顾

1、最全的AI速查表|神经网络，机器学习，深度学习，大数据

2、资源|10个机器学习和深度学习的必读免费课程

3、论文看吐了没有？做研究的同学瞧一瞧看一看啦，教你读论文：为什么读以及如何读

4、Python代码实践|随机森林是“黑盒子”？不存在的，撸完代码你就懂了

5、经验之谈|别再在CNN中使用Dropout了

本文可以任意转载，转载时请注明作者及原文地址。

640?wx_fmt=jpeg

请长按或扫描二维码关注本公众号

请帮忙点击下方的广告，这么大冷的天，每天晚上写公众号，都累瘦了，各位就当是给我加点营养了，点击一下，然后关掉就行，谢谢大家！

640?wx_fmt=gif

ronghuaiyang

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫