目录
1、统计Java和python岗位的总数据量,可以知道目前哪门语言的就业岗位比较多。
一、数据准备
可使用八爪鱼或者自己写一个python程序爬取boss的数据!下面这里是我之前使用八爪鱼爬取导入数据库的数据。
可以看出,这里包含了java和python的招聘数据,一个有14个主要字段。
上图为爬取的部分数据,可以看出爬取到的数据信息还是有很大的用处的。
二、指标说明以及指标计算实现的代码。
1、统计Java和python岗位的总数据量,可以知道目前哪门语言的就业岗位比较多。
这里就先创建了一个SparkSession对象,然后设置好MySQL的连接参数。再创建一个Properties用于存放用户名和密码。使用SparkSession.read().jdbc()读取数据库。读取数据库成功后,原本我想使用djava.count()获取到数据的个数的,没想到报错了。