『运筹OR帷幄』原创
作者:周岩
由于近些年互联网和计算机的发展,数据对于各各行业来说是一块新的“金矿”,再加上近两年人工智能的兴起,数据的重要性更是越加的凸显,因此一些新的职业比如数据挖掘工程师,算法工程师等成为一个新兴的行业。那么经过了这几年的发展,这个行业在前景是怎样的呢?既然是数据行业,我们就用数据来说话吧。
首先我们来找一些数据的来源,对于我们普通人来说,最好的数据源自然是数据开源网站kaggle (https://www.kaggle.com/),那么我们就找了一个比较符合我们目标的数据集(https://www.kaggle.com/kaggle/kaggle-survey-2017)。这个数据集包含了很多信息,这里仅对其中的薪资分布做重点分析,其他更有趣的信息,各位同学可以自行参考本文进一步挖掘。
一、使用的工具及数据的处理
数据可以从上述提供的链接下载,本文主要通过python来进行数据的处理,主要的工具使用了jupyter,数据包包含python中的科学计算工具:numpy, pandas, matplotlib, seaborn, plotly等。
首先我们来分析一下数据,由于数据不是很大,所以可以用最基本的Excel打开,其中最主要的文件是"multipleChoiceResponses.csv’和"conversionRates.csv’两个文件,前者是主要的数据文件,后者是当时的一个货币汇率表,由于我们需要进行薪资对比,所以需要将各个国家的货币统一转换为美元(USD)。
那么接下来首先将数据解压后上传到jupyter中,然后引入必要的包并导入数据:
由于数据中有一些信息我们暂时用不到,同时还有