最近写了一篇关于如何抓取数据的文章,目前没有审核过,通过后再来更新。不过网上有很多关于这块技术的详细操作,只要搜索一下就能找到。
现在要说的是拿到数据后,如何处理数据,如何描述数据,如何发现数据中的信息/问题。对数据分析师来说,描述和展示数据,这是基础的一步。如何发现问题,并提出相关建议,最终能把建议落地,这一系列操作,对数据分析师才是挑战。
我只获取了北京地区的职位数据,数据如下:
一、我想分析以下几个问题:
1.职位区域分布
2.职位薪水分布
3.工作经验需求分布
4.工作经验对薪水的影响
5.职位的行业分布
6.公司福利
二、工具有jupyter notebook,python,pandas,matplotlib,jiaba,wordcloud
三、获取数据
首先要把相关的库加载进来,如下:
如果数据存放在CSV文件里,那么利用panda