python用selenium爬取网页数据_Python项目实战:使用selenium爬取拉勾网数据

“ 一切不经过项目验证的代码都是耍流氓,今天我们就通过一个简单的招聘网站的数据归档进行当前热门岗位的大数据分析,最后以wordcloud进行显示。本文为数据爬取篇。”

项目准备:

这次我们来比较完整的抓取拉勾网上面“Python”相关招聘信息以及招聘要求详情。

能联网的电脑、搭建好Python3以上环境,如果环境没有配置,可以参考我原来的文章 Python的安装与配置。IDE这次我们采用Jupyter Notebook ,采集我们使用selenium+pyquery,为什么用这个?说起来都是泪,文末我再解释。数据分析使用pandas。

分析页面,寻找数据来源

打开拉勾网,搜索“Python”得到下面这个页面。最近疫情我被关在武汉了,我就以武汉站为目的地好了。共30页,每页展示15个职位[职位(368)]。

通过selenium采集比request采集的效率要低许多,因为是模拟浏览器方式进行抓取,所以每次都要对页面进行渲染。但是同样也有个好处,就是不用在意header和cookie问题。废话不多说,直接开始操作

按照以前我们的方法,在Notebook中新建Python 3文件:

引入各种模块:

import pyquery as pq

from selenium import webdriver

import pandas as pd

import time

import os

初始化一个浏览器:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值