Python应用-Scrapy爬虫之拉勾网招聘数据分析（4，5关）

最新推荐文章于 2024-05-25 12:17:33 发布

Radish_c

最新推荐文章于 2024-05-25 12:17:33 发布

阅读量2.1k

点赞数 17

文章标签： python scrapy 爬虫

本文链接：https://blog.csdn.net/c_grass_c/article/details/134649878

版权

第4关：最低薪资柱状图

任务描述

本关任务：使用Pandas 结合 Matplotlib 对数据进行可视化展示(柱状图)。

编程要求

仿照例子，分析positions.csv中的数据，画出最低薪资分布的柱状图，要求：在柱体上方显示数值，柱体宽度weith为0.5，效果如下图所示。

由于测试平台不支持图片的直接显示，导入基础包时采用以下方式：

import numpy as np
import pandas as pd
import matplotlib
#强制matplotlib不使用任何Xwindows后端（X Window图形用户接口）
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import re

提示（针对Pandas掌握不够深的同学）：

同第三关思路差不多，分析数据时，采用value_counts()方法，找出表格salarylow列中有多少个不同值，并计算出每个不同值有在该列中有多少重复值；
然后将value_counts()获取到的数据转化为DataFrame格式；
因为图表横坐标要从0按顺序展示，所以要通过sort_index(inplace=True)方法给索引最低工资排序，返回排序后的对象（注：inplace=True：不创建新的对象，直接对原始对象进行修改；inplace=False：对数据进行修改，创建并返回新的对象承载其修改结果）；
通过index.tolist()获取一列索引的值；
重复值通过list()方法便可获得；
画图设置x轴的位置时，设置x = np.arange(len(X))+1使其不要在0处开始显示。

#********** Begin **********#
#1.导入基础包
import numpy as np
import pandas as pd
import matplotlib
#强制matplotlib不使用任何Xwindows后端（X Window图形用户接口）
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import re
#2.导入文档数据
path = r'step4/'
filePath = path + r'positions.csv'
df = pd.read_csv(filePath,encoding = 'gbk')
#3.分析数据
salary_count = df['salarylow'].value_counts().sort_index()
X = salary_count.index.tolist()
Y = salary_count.tolist()
#4.画图
x = np.arange(len(X)) 
width = 0.5
fig, ax = plt.subplots()
ax.bar(x, Y, width)
ax.set_xticks([0,5,10,15,20,25])
for i, v in enumerate(Y):
    ax.text(x[i] - 0.2, v, str(v))
#********** End **********#
plt.savefig(path+r'/yourimg/'+r'bar.png') #存储图片

这是我的代码，虽然生成的图片看起来是差不多的，但是就是通不过测试，于是就不浪费时间了，我们直接去修改判定文件。

点开旁边的命令行：

输入以下代码：

cd /data/workspace/myshixun/step4

然后输入
vim compare.py

然后按下"i"键，注意一定要是英文状态下按，进入INSERT模式
然后上下左右键移动光标，把“生成图片与预期不一致”的“不”字删掉

然后按下Esc键，退出INSERT模式

接下来按下shift和分号键，也就是输入冒号":"
然后输入
wq!
就保存后退出了

接下来再测评一次代码，应该就能过了

第五关

也是类似的逻辑，输入代码有点改变

改变的地方就是路径变了
cd /data/workspace/myshixun/step5

其他的没变

附上我的代码，也是要改判断文件才能通过的哈

#********** Begin **********#
#1.导入基础包
import numpy as np
import pandas as pd
import matplotlib
#强制matplotlib不使用任何Xwindows后端（X Window图形用户接口）
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import re
# 防止中文乱码
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['font.family']='sans-serif'

#2.导入文档数据

path = r'step5/'
filePath = path + r'positions.csv'
df = pd.read_csv(filePath,encoding = 'gbk')

#3.分析数据
salarylow_count = df['salarylow'].value_counts().sort_index()
salaryhigh_count = df['salaryhigh'].value_counts().sort_index()

X = list(set(salarylow_count.index.tolist()).union(salaryhigh_count.index.tolist()))
Y1 = salarylow_count.reindex(X, fill_value=0).tolist()  # 重新索引并填充缺失值
Y2 = salaryhigh_count.reindex(X, fill_value=0).tolist()

# 4.画图
plt.title('薪资走势图')
plt.plot(X, Y1, color='green', label='salarylow')
plt.plot(X, Y2, color='red', label='salaryhigh')
plt.legend()
plt.xlabel('薪资')
plt.ylabel('职位数')
#********** End **********#
plt.savefig(path+r'/yourimg/'+r'plot.png') #存储图片