基于python的数据采集以及可视化脚本的开发(超详细)

本文详细介绍了Python数据采集(爬虫)技术,包括爬虫的定义、通用爬虫与聚焦爬虫的区别,以及当前研究现状。接着探讨了数据清洗的重要性,并概述了数据可视化的历程和应用。通过Python实现了一个爬虫,用于抓取智联招聘上的Java职位信息,数据存储在MySQL数据库中,并进行了数据清洗。最后,使用matplotlib库进行数据可视化,展示了薪资、城市、学历、工作性质和工作经验的分布情况,帮助理解Java职位市场状况。
摘要由CSDN通过智能技术生成

目 录

1 引言.............................................................5

1.1 Python的介绍...................................................5

1.2 数据采集(爬虫)介绍............................................5

1.2.1 什么是爬虫....................................................5

1.2.2 通用爬虫和聚焦爬虫............................................5

1.2.3 数据采集研究现状..............................................6

1.3 数据清洗介绍....................................................6

1.4 数据可视化介绍..................................................6

1.4.1 数据可视化发展史..............................................6

1.4.2 数据可视化研究概述............................................7

2 数据采集(爬虫)技术实现..........................................8

2.1 采集需求........................................................8

2.2 爬虫设计流程....................................................8

2.3 采集网站分析....................................................9

2.4 采集代码实现....................................................10

3 数据清洗技术.....................................................13

4 数据可视化技术...................................................14

4.1 可视化技术实现.................................................14

4.1.1 字段确认.....................................................14

4.1.2 数据获取.....................................................15

4.1.2.1 获取薪资数据...............................................15

4.1.2.2 获取城市数据...............................................16

4.1.2.3 获取学历数据...............................................17

4.1.2.4 获取工作性质数据...........................................18

4.1.2.5 获取工作经验数据...........................................19

4.1.3 可视化实现.................................................19

4.2 数据展示与分析.................................................20

4.2.1 薪资可视化...................................................20

4.2.2 城市地区分布.................................................21

4.2.3 学历要求.....................................................21

4.2.4 工作性质.....................................................22

4.2.5 工作经验.....................................................24









1 引言

1989年,软件工程师蒂莫西·约翰·伯纳斯-李爵士(Sir Timothy John Berners-Lee)发明了万维网,直至今日,已经有三十年的了,这三十年来,互联网发展特别的迅速,网络的发展,造成了World Wide Web成了大批数据的载体,而如何利用这些数据来改善人们的生活和工作是一个值得研究的课题。

应届生毕业,面临着最紧急的事,那就是找工作,但是很多毕业生不知道自己想要做的工作岗位的地区分布、薪资待遇等方面的情况。本脚本就是基于Python的一个数据采集和数据可视化,以java为例,使用requests库采集智联招聘上的网站的有关java的职位数据,并存储到阿里云数据库中,之后对数据库中的相关职位信息进行修正,可视化等操作,利用这些数据来了解java的职位信息。

1.1 Python

Python编程语言和java编程语言一样,都是一种高级编程语言,不过不同于Java语言的是,Python是解释型,Java是编译型。

Python和Perl语言相同, Python和Perl语言的源代码都是遵循 GPL协议。

1.2 数据采集(爬虫)介绍

1.2.1 什么是爬虫

什么是爬虫?搜索引擎就是爬虫的一个典型示例,像百度、谷歌等等这些都属于搜索引擎。网络爬虫的别称有很多,像网络机器人、网络追逐者,还有人很形象地称之为网络蜘蛛,它的本质上是一个程序或者一个脚本,通过某些特定的规则自动的去爬取网络中的数据。

一般来说,爬虫是模拟浏览器请求服务器。它可以使用某些规则自动请求网页且抓取有用的数据。

1.2.2 通用爬虫和聚焦爬虫

爬虫分为通用爬虫和聚焦爬虫。

通用爬虫:它是各大搜索引擎(Google,百度,搜狗)的重要组成部分,主要是用来下载互联网的网页到本地,来形成一个互联网内容的镜像备份。

聚焦爬虫&

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值