目 录
1 引言.............................................................5
1.1 Python的介绍...................................................5
1.2 数据采集(爬虫)介绍............................................5
1.2.1 什么是爬虫....................................................5
1.2.2 通用爬虫和聚焦爬虫............................................5
1.2.3 数据采集研究现状..............................................6
1.3 数据清洗介绍....................................................6
1.4 数据可视化介绍..................................................6
1.4.1 数据可视化发展史..............................................6
1.4.2 数据可视化研究概述............................................7
2 数据采集(爬虫)技术实现..........................................8
2.1 采集需求........................................................8
2.2 爬虫设计流程....................................................8
2.3 采集网站分析....................................................9
2.4 采集代码实现....................................................10
3 数据清洗技术.....................................................13
4 数据可视化技术...................................................14
4.1 可视化技术实现.................................................14
4.1.1 字段确认.....................................................14
4.1.2 数据获取.....................................................15
4.1.2.1 获取薪资数据...............................................15
4.1.2.2 获取城市数据...............................................16
4.1.2.3 获取学历数据...............................................17
4.1.2.4 获取工作性质数据...........................................18
4.1.2.5 获取工作经验数据...........................................19
4.1.3 可视化实现.................................................19
4.2 数据展示与分析.................................................20
4.2.1 薪资可视化...................................................20
4.2.2 城市地区分布.................................................21
4.2.3 学历要求.....................................................21
4.2.4 工作性质.....................................................22
4.2.5 工作经验.....................................................24
1 引言
1989年,软件工程师蒂莫西·约翰·伯纳斯-李爵士(Sir Timothy John Berners-Lee)发明了万维网,直至今日,已经有三十年的了,这三十年来,互联网发展特别的迅速,网络的发展,造成了World Wide Web成了大批数据的载体,而如何利用这些数据来改善人们的生活和工作是一个值得研究的课题。
应届生毕业,面临着最紧急的事,那就是找工作,但是很多毕业生不知道自己想要做的工作岗位的地区分布、薪资待遇等方面的情况。本脚本就是基于Python的一个数据采集和数据可视化,以java为例,使用requests库采集智联招聘上的网站的有关java的职位数据,并存储到阿里云数据库中,之后对数据库中的相关职位信息进行修正,可视化等操作,利用这些数据来了解java的职位信息。
1.1 Python
Python编程语言和java编程语言一样,都是一种高级编程语言,不过不同于Java语言的是,Python是解释型,Java是编译型。
Python和Perl语言相同, Python和Perl语言的源代码都是遵循 GPL协议。
1.2 数据采集(爬虫)介绍
1.2.1 什么是爬虫
什么是爬虫?搜索引擎就是爬虫的一个典型示例,像百度、谷歌等等这些都属于搜索引擎。网络爬虫的别称有很多,像网络机器人、网络追逐者,还有人很形象地称之为网络蜘蛛,它的本质上是一个程序或者一个脚本,通过某些特定的规则自动的去爬取网络中的数据。
一般来说,爬虫是模拟浏览器请求服务器。它可以使用某些规则自动请求网页且抓取有用的数据。
1.2.2 通用爬虫和聚焦爬虫
爬虫分为通用爬虫和聚焦爬虫。
通用爬虫:它是各大搜索引擎(Google,百度,搜狗)的重要组成部分,主要是用来下载互联网的网页到本地,来形成一个互联网内容的镜像备份。
聚焦爬虫&