本文由Omdena的首席机器学习工程师Rosana de Oliveira Gomes和Omdena的初级机器学习工程师Joseph Itopa A撰写。
从传统行业过渡到一个全新的数据科学职业,感觉就像是登上了一架已经起飞的飞机。
数据科学专业相对比较新颖,这意味着许多数据科学家和机器学习工程师的职业生涯并不是从这条道路开始的。他们也是从其他领域转行,也许像很多读到这篇文章的人一样。
所以,本文将会侧重于这个职业将会遇到的困难,应该使用什么数据处理工具和学习什么技能才能进入到到数据科学这个行业,并就如何克服这些困难从而提供切实可行的建议。
技术难关以及如何克服这些困难
01 数学及编程
数据科学不需要任何大学中所学的的高等数学知识。但是每一个人工智能算法都是基于一些你需要理解的数学结构,这包括线性代数和微积分中的一些概念。要解释数据分析的结果,则需要概率及统计知识进行统计分析。
数学提供了基本概念,而编程语言则是使这些概念具体化的工具。所以学习一种编程语言是非常有必要的,人们通常会选择Python或R语言,或者可能SQL和Bash结合使用。数据科学家使用的编程软件KDnuggets的一项调查显示,Python已经超过R成为数据科学家的首选数据分析工具。
但是编程语言的选择基本上可以归结为任务要求和风格偏好。Python对于有编程经验的人来说很容易学会,并且可以广泛应用于各个行业和专业领域,如数据科学和机器学习。如果有统计学背景,并且主要从事分析工作,R也是一个不错的选择。
它有内置的工具和数据库,可以通过数据报告来分析数据的结果。坚持使用一种编程语言之后便可以在完成基础知识之后开始构建一些数据模型。
从经验来看,要获得必要的数据科学技能,就要一次只选择一个编程语言学习并坚持下去。
02 学会解决问题
数据科学可以看作成一种用创造性和逻辑思维解决问题的能力。这需要一定的编程知识和对通过实践对算法的深入理解。
在掌握了一些编程的基本知识后,你可以通过课程或平台练习来解决现实中面临的数据问题。
GeeksforGeeks为竞争对手的编码、Python、JAVA和SQL提供实践项目。解决一些Kaggle竞赛问题也可以提高解决问题的能力,因为这样可以很容易地利用真实的数据进行实践,并在其中获得很多帮助。
DataCamp的非指导项目是为开放式项目找到解决方案的好方法。
在数据科学事业中获得一些成就是很重要的。在近期的一次Omdena网络研讨会上,数据科学传播者埃里克•韦伯(ericweber)说:“不要只为收入而学习,而是为给你带来快乐的东西而学习;否则,你可能会很快精疲力尽。”
03 加入协作项目
使用算法在项目上进行了实践之后,需要为更高级的项目做好准备。这就是协作平台的作用。协作数据科学项目依赖平台以多样化和有效的方式开发新的项目。
在协作项目中可以发现街道邮编的一致性和趣味性。在与非结构化和凌乱的数据作斗争时可以与其他数据科学家互相学习,同时也可以交到新朋友。
启发性的合作包括数据类型、科学到数据科学以及数据科学在社会中的使用。这些选项通常是基于特定位置的,由于可用性有限和使用过程繁琐,因此可能成本高昂或具有竞争力。
Omdena是协作项目的另一种选择,它每月启动几个项目,并遵循自愿原则通过在线协作解决现实中的问题。学习者与领域专家合作,帮助他们通过网络研讨会、课程、书籍和博客文章保持学习动力。