python用selenium爬取网页数据_Python项目实战：使用selenium爬取拉勾网数据

孟德9413

于 2020-12-24 23:19:58 发布

阅读量395

点赞数

文章标签： python用selenium爬取网页数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34800976/article/details/111978651

版权

“ 一切不经过项目验证的代码都是耍流氓，今天我们就通过一个简单的招聘网站的数据归档进行当前热门岗位的大数据分析，最后以wordcloud进行显示。本文为数据爬取篇。”

项目准备：

这次我们来比较完整的抓取拉勾网上面“Python”相关招聘信息以及招聘要求详情。

能联网的电脑、搭建好Python3以上环境，如果环境没有配置，可以参考我原来的文章 Python的安装与配置。IDE这次我们采用Jupyter Notebook ，采集我们使用selenium+pyquery，为什么用这个？说起来都是泪，文末我再解释。数据分析使用pandas。

分析页面，寻找数据来源

打开拉勾网，搜索“Python”得到下面这个页面。最近疫情我被关在武汉了，我就以武汉站为目的地好了。共30页，每页展示15个职位[职位(368)]。

通过selenium采集比request采集的效率要低许多，因为是模拟浏览器方式进行抓取，所以每次都要对页面进行渲染。但是同样也有个好处，就是不用在意header和cookie问题。废话不多说，直接开始操作

按照以前我们的方法，在Notebook中新建Python 3文件：

引入各种模块：

import pyquery as pq

from selenium import webdriver

import pandas as pd

import time

import os

初始化一个浏览器：

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python用selenium爬取网页数据_Python项目实战：使用selenium爬取拉勾网数据

“一切不经过项目验证的代码都是耍流氓，今天我们就通过一个简单的招聘网站的数据归档进行当前热门岗位的大数据分析，最后以wordcloud进行显示。本文为数据爬取篇。”项目准备：这次我们来比较完整的抓取拉勾网上面“Python”相关招聘信息以及招聘要求详情。能联网的电脑、搭建好Python3以上环境，如果环境没有配置，可以参考我原来的文章Python的安装与配置。IDE这次我们采用Jupyter ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。