数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。
“数据科学家”在2009年由Natahn Yau首次提出,其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。数据科学家集技术专家与数量分析师的角色于一身,与传统数量分析师相比:后者通常利用企业的内部数据进行分析,以支持领导层的决策;而前者更多的是通过关注面向用户的数据来创造不同特性的产品和流程,为客户提供有意义的增值服务。
面向客户的性质决定了大部分数据科学家担任公司产品开发或营销部门的职位,或是效力于首席技术官。那么数据科学家需要具备哪些核心能力呢?科技记者Derrick Harris在其文章中介绍了数据科学家应具备的一些技能。
他表示,在你询问别人什么是数据科学家,或者数据科学家是做什么的时候,很容易发现:“数据科学家”其实是从“大数据”引发的术语混乱中形成的。数据科学的核心能力被定义为:SQL、统计、预测建模和编程、Python等,这些听起来很合理。但是很快就有更多名词添加到其中:Hadoop/MapReduce、机器学习、可视化,甚至还有传统的数学、物理、计算机科学等类似能力。
许多人呼吁专业领域、商业智慧、创造力及表达能力也是同样重要的。一个数据科学家不能只擅长数字(这种人被称为统计学家或分析师),也要能够理解业务:什么样的数据或结果才是有参考性的;能够找到新的数据集并为其创造新产品;然后能够让CEO们理解这一切。这是一个艰巨的任务,这个世界上这类人是很少的。作为顶尖的数据科学家,不要求他们对环境做出什么积极的改变,但是需要他们尝试做一些真正先进的东西,帮助大家更好的解决业务上的问题。
数据科学家的六种能力:
1.对数据的提取与综合能力;
2.统计分析能力;
3.数据洞察与信息挖掘能力;
4.开发软件能力;
5.网络编程能力;
6.数据的可视化表示能力。
数据科学家涉及学科:
1.计算机科学:数据获取、数据解析、数据存放、和数据安全
2.数理统计学:数据分析、数据过滤、数据挖掘、和数据优化
3.图形设计学:显示数据结果,比如将数据表达成三维图形,以便更好地理解和利用
4.人机交互学:在用户和数据之间建立有机联系,使得人对数据的使用更方便。
来源:http://nirvacana.com/thoughts/becoming-a-data-scientist/