Python or Java？Boss直聘告诉你该如何选择

最新推荐文章于 2024-06-17 08:09:46 发布

Roger_CoderLife

最新推荐文章于 2024-06-17 08:09:46 发布

阅读量362

点赞数

分类专栏：程序人生

程序人生专栏收录该内容

14 篇文章 0 订阅

订阅专栏

点击上方“程序人生”，选择“置顶公众号”

第一时间关注程序猿（媛）身边的故事

640?wx_fmt=png

作者

Don Lex

已获原作者授权，如需转载，请联系原作者。

本文原文地址：https://blog.csdn.net/csdnsevenn/article/details/82634881

前言

“人生苦短，我用 Python”，Python 的经典 slogan 讲究争分夺秒，并且在 9月的TIOBE榜中拿下第 3 名宝座。

640?wx_fmt=png

今天就试着在Boss直聘网站上爬取python和java的招聘信息，比较一下两个方向的发展前(钱)途 ，为本科生的就业方向给一个小小的建议。

爬取

在招聘网站上直接以”本科生”和”java”或”python”作为筛选条件，以广州为例：

640?wx_fmt=png

（网站页面）

爬取招聘的大体信息，具体代码：

 1from bs4 import BeautifulSoup
 2import requests
 3import pymongo
 4
 5client = pymongo.MongoClient('localhost', 27017)
 6zhipin = client['zhipin']
 7zhipin_java = zhipin['zhipin_java']
 8zhipin_python = zhipin['zhipin_python']
 9
10
11headers = {
12    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36',
13    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
14}
15
16total_page = 11
17
18
19def get_info(param, data_table):
20    '''
21    根据招聘方向(java或python..)爬取信息存进数据库
22    :param param: 招聘方向
23    :param data_table: 数据库表明
24    :return:
25    '''
26    for i in range(1, total_page):
27        url = 'https://www.zhipin.com/c101280100/d_203-h_101280100/?query={0}&page={1}'.format(
28            param, i)
29        web_data = requests.get(url, headers=headers)
30        soup = BeautifulSoup(web_data.content, 'lxml')
31        for item in soup.select('#main > div > div.job-list > ul > li'):
32            # 招聘要求
33            job_title = item.select('.job-title')[0].text  # 岗位
34            salary = item.select('.red')[0].text  # 薪资
35            person_info = item.select('.info-primary p')[0].text  # 应聘要求
36            # 获取公司信息
37            company = item.select('.info-company h3 a')[0].text  # 公司
38            company_info = item.select('.info-company p')[0].text  # 公司信息
39
40            data = {
41                'job_title': job_title,
42                'salary': salary,
43                'person_info': person_info,
44                'company': company,
45                'company_info': company_info,
46            }
47            # 插入数据库
48            data_table.insert(data)
49            print(data)
50        print('*' * 100)
51    print('\n' * 5)
52
53
54if __name__ == '__main__':
55    param_list = ['java', 'python']
56    table_list = [zhipin_java, zhipin_python]
57    for param, table in zip(param_list, table_list):
58        get_info(param, table)

爬取的信息全部存在mongodb中,便于后面的分析处理。

数据清洗

在数据处理这里定义了几个方法，用来处理相应的内容。

1.初始变量

1import pymongo
2client = pymongo.MongoClient('localhost', 27017)
3zhipin = client['zhipin']
4zhipin_java = zhipin['zhipin_java']
5zhipin_python = zhipin['zhipin_python']
6
7from collections import Counter
8from pyecharts import Bar,Line,Pie

2.获取地区分布情况

 1import re
 2def get_zone():
 3    ''' 获取地区'''
 4    zone_list = []
 5    real_list = []
 6    for item in zhipin_java.find():
 7        text = item['person_info'][3:6]
 8        zone_list.append(text)
 9    for i in zone_list:
10        j = re.sub(r' \d-','',i)
11        real_list.append(j)
12        while '' in real_list:
13            real_list.remove('')
14    return real_list
15zone = dict(Counter(get_zone()))

3.整理招聘数据

1def del_key_1():
2    '''删除招聘次数为1的岗位'''
3    li = []
4    for key in job_dict.keys():
5        if job_dict[key] == 1:
6            li.append(key)
7    for i in li:
8        del job_dict[i]
9    print(job_dict)

4.整理薪水数据

 1def get_salary():
 2    '''获取招聘的工资'''
 3    min_list = [] #起步工资
 4    max_list = [] #最高工资
 5    job_title = [] #岗位
 6    for item in zhipin_java.find():
 7        job_title.append(item['job_title'])
 8        salary = item['salary']
 9        min_list.append(int(salary.split('-')[0][:-1]))
10        max_list.append(int(salary.split('-')[1][:-1]))
11    return min_list,max_list,job_title

数据可视化

通过整理地区分布数据,利用pyecharts作图。分别以下面4个方面进行比较：