#数据科学家访谈录-均方误差无法解决所有社会难题
*这个系列摘自《数据科学家访谈录》,此书选取世界知名的25位数据科学家进行了深度访谈,看过之后觉得对于数据科学乃至计算机专业领域的学生很有启发性,故将部分内容整理po上,方便自己之后查阅,如果能对有缘看到本文的人们带来一些启发性就更开心啦~
*因为是摘抄,所以下文出现的第一人称“我”均指代被访谈者
作者介绍
Drew Conway,Project Florida数据助管,O‘Reilly出版《机器学习》(Machine Learning for Hackers)一书共同作者。计算机科学与政治学双学位,从事两个学位之间的交叉领域。
写代码与讲故事
大部分数据科学家所做工作的一大部分都不是数据整理或者建模或者编程,而是一旦你做出了一个结果,你必须要想办法将结果解读给那些完全不具备看懂这个图所必须的技能的人听。
你可以用文字,或可视化的图表,亦或是做一个演示去展示你的结果。
讲故事的能力在公司的项目实战中,绝对是最重要的一个环节,如果你不是一个很好的程序员,你也可以通过教授别人写代码和指导别人来提高自己的水平。
均方误差根无法解决所有社会难题
当人们想起数据科学的时候,或者是将机器学习算法运用在数据科学领域的时候,人们总是觉得我们已经有了一个定义得很完美的问题,而且已经有了用来解决这个问题的数据集。我们所要做的是从数据集中找到一个切入点切入进去解决这个问题,找到一个比我们当前拥有的答案更好的解法。
kaggle在这方面做得很好,他们规定一个被定义好的问题,找到数据集,告诉所有人这批数据是和这个问题紧密关联的,然后把它们推出来,开展一场竞赛,这种情况下,人们只需要想办法实现一些非常具体的目标,例如实现更高的预测精度,或者你做的分类器给出的错误更少。
但是真正困难的处境,是那些你其实并没有一个被定义得很好的问题的时候,或者是我们对于问题有比较清晰的认识,但是对于如何找到用于解决问题的数据却毫无头绪的时候,那些问题对我来说就非常具有挑战性了。这些问题很难被建模,需要我们有更为发散创新的思维能力。
在社会科学与数据科学的交叉领域工作是什么体验
我选择这条路的原因之一是911恐怖袭击对我的触动,基于我曾经学过的计算机科学知识,以及我对社会科学的强烈兴趣,我在这个智库结构开始了作为一名计算社会科学家的职业道路。我当时在那里所遇到的最大的问题就是,要完成我的研究,工作量实在是太大了;我需要去理解网络、搞清楚在各种不同的情况下,人分别是怎么做决定的。
从那个时候开始,我就将计算机科学、数学和统计学看作是自己的武器库并且乐在其中,我觉得将这些科技类的东西用于分析人类的问题实在是太有趣了。
工作之后又读研的经历带来不一样的视野
我强烈建议不要在本科毕业之后直接去读研,即便是只去工作一年也好,我觉得这样的经历一定能给你很多的想法和经历,并且能让你对于自己到底更钟情于业界还是想要走学术路线这类的问题有更为清楚的答案。
我觉得企业与学界最本质上的区别在于,业界公司总是需要去为别人解决他们的问题。但是当你读研进到学校之后,你需要开始自己思考那些问题,而难点就在于,有些科学问题真的很无聊,或者鉴于你没有足够的经验和基础知识,你根本看不出那些问题有什么意义,自然也就对其没有什么兴趣,这也正是研究生阶段导师的重要性所在。
所以如果你对于业界或学界任意一方面有足够的经验,你就可以用比较的方式去看另一方面大概是什么样的。
如何挑选数据科学工作的使用工具
我挑选工作的规则是:我学习这个工具所花费的时间,与我学会它以后对我的工作起到的促进和加速作用相比,这两者之间的权衡如何?
我总是基于解决问题的想法去学习一个东西的,在这个过程中,我就用很暴力的方法去尽力理解这个方法。如果我们困在某个问题上就是因为缺少某个工具上的知识,那么就去学它,把拼图中那个缺少的板块补起来。但是整个事情的起点就是,你需要去解决一个问题。
对于数学和统计学也是一样的:我学习过概率论、微积分和线性代数,我热衷于解决问题,而那些东西都是我需要用到的工具,我并不是纯粹喜欢这些东西才去学的。有些人喜欢数学就去学习数学,我承认它很美,但是我毕竟不是艺术家,我更像是一个机械师。
纽约市的数据生态
在纽约,过往岁月中的龙头企业大多是金融业、媒体业、广告业、娱乐业及一定程度上还算不错的教育产业。这些龙头企业都是与数据有很大关系的。因此,纽约这里的萌芽社区迅速变得越来越大,并且深深地受到了周围企业的影响,因为你身边的一切几乎都是依赖着数据运转的,这也是所有在这个城市的人赚钱的方法。
另一个我觉得纽约与其他地方不同的是,我们可以从纽约的地理位置上获益良多。在我就读纽约大学的时候,我可以非常方便地乘坐地铁前往哥伦比亚大学,或者几步路就走到中央广场。这样的地理位置极大地促进了我们的社区发展,因为人们可以方便地沟通彼此。你也可以找到一些同样出色的地方,例如硅谷,硅谷的地形也让整个城市的魅力倍增。
所以在纽约,数据科学可以更为高效地与各个产业结合起来。我认为纽约漫长的历史中的各种公司企业在其中起到了莫大的作用。
社会科学与计算机科学之间的跨领域研究
我跟许多社会科学家聊过,他们想要学习Python或者R但是不确定哪一个更好,我告诉他们不要犹豫,直接选一个深深扎下去就行。因为这确实没什么区别,你只需要随便选一个,然后开始使用它,你会慢慢从你的错误中学到很多东西的,但是记得确保自己总是能问出最正确的答案。
另外我想告诉这样的人一句话,其实这是以前别人告诉过我的话,那就是“你太标新立异了,当今社会从来没有人可以从社会科学转入数据科学领域!”这句话绝对是错的。那些你关心的问题,一定会有人愿意花钱来让你为之奋斗。一个互联网公司赚钱的所有方法其实在深层次来说都是依赖人们做决定:做决定买什么东西;做决定点击什么页面;做决定分享某些东西或者与某人来往。上述的所有问题都是社会科学的基本问题。所以你已经经过了长期这方面的训练,并且可以很好地从现实世界中识别出这些问题。而现在你需要做的,就是从业界找到解决这些问题的工作。