“ 一切不经过项目验证的代码都是耍流氓,今天我们就通过一个简单的招聘网站的数据归档进行当前热门岗位的大数据分析,最后以wordcloud进行显示。本文为数据爬取篇。”
项目准备:
这次我们来比较完整的抓取拉勾网上面“Python”相关招聘信息以及招聘要求详情。
能联网的电脑、搭建好Python3以上环境,如果环境没有配置,可以参考我原来的文章 Python的安装与配置。IDE这次我们采用Jupyter Notebook ,采集我们使用selenium+pyquery,为什么用这个?说起来都是泪,文末我再解释。数据分析使用pandas。
分析页面,寻找数据来源
打开拉勾网,搜索“Python”得到下面这个页面。最近疫情我被关在武汉了,我就以武汉站为目的地好了。共30页,每页展示15个职位[职位(368)]。
通过selenium采集比request采集的效率要低许多,因为是模拟浏览器方式进行抓取,所以每次都要对页面进行渲染。但是同样也有个好处,就是不用在意header和cookie问题。废话不多说,直接开始操作
按照以前我们的方法,在Notebook中新建Python 3文件:
引入各种模块:
import pyquery as pq
from selenium import webdriver
import pandas as pd
import time
import os
初始化一个浏览器: