受友人所托,写了一个爬取智联招聘信息的爬虫,与大家分享。
本文将介绍如何实现该爬虫。
目录
网页分析
以https://xiaoyuan.zhaopin.com/full/538/0_0_160000_1_0_0_0_1_0 为例。
网页的组织结构如下:
将网页代码保存为html文件(文件见最后链接),使用的软件是Sublime Text,我们所需的内容如下图所示:
那么我们需要爬取的内容包括(以上图为例):
- 职位详细介绍的url:xiaoyuan.zhaopin.com/job/CC000920419J9000072500
- 职位名称:C/C++
- 公司名称:中国移动通信有限公司-中国移动在线服务有限公司
- 发布时间:19小时前
- 职责描述:1、负责图像识别算法开发、优化和硬件驱动开发调试工作;2、根据算法工程师研发结果进行底层算法模型编写、优化和API接口开发工作;3、配合硬件工程师进行硬件接口驱动开发、调试和优化工作;……
实现代码分析
# -*- coding:utf-8 -*-
import urllib.request