上一篇文章详细描写了从某个招聘网站爬取某个岗位的详细过程。这次,将使用python中的pyecharts库做一个入门级分析。获取原始数据。
pyecharts库中包含多种作图方式,这次先使用柱状图按城区分类统计招聘数量。
首先,导入需要使用的类,然后先查看一下前五条数据。
from pyecharts.charts import Bar
from pyecharts import options
import csv
with open('file/java招聘.csv')as f:
reader = csv.reader(f)
next(reader)
for i in range(5):
print(next(reader))
['四川格瑞特科技有限公司', 'Java高级开发工程师', '0.8-1.2万/月', "['成都-武侯区', '3-4年经验', '本科', '招若干人']", '2020-09-03 09:27:45', '50-150人']
['成都盛世普益科技有限公司', 'java开发工程师(偏数据方向),年薪7-15万', '6-8千/月', "['成都-青羊区', '2年经验', '本科', '招若干人']", '2020-09-03 09:27:15', '50-150人']
['上海梦创双杨数据科技股份有限公司', 'Java中高级开发工程师-成都', '1-3万/月', "['成都-锦江区', '3-4年经验', '本科', '招20人']", '2020-09-03 09:26:34', '1000-5000人']
['成都一诺非凡广告有限公司', 'Java开发实习生', '6-8千/月', "['成都-武侯区', '无需经验', '大专', '招1人']", '2020-09-03 09:25:07', '150-500人']
['成都爱易佰网络科技有限公司', 'Java架构师(社招)', '1-2.5万/月', "['成都-武侯区', '在校生/应届生', '本科', '招1人']", '2020-09-03 09:23:27', '50-150人']
可以看到,关于位置的信息在列表的第四列的第一个元素里,关于地区的信息在短横线的后面,这里需要做一下数据清洗。首先将没有给出明确地区的数据排除在外。这里需要用到字符串切割和字符串切片操作。
def prepare_data():