前言 |
- Scrapy版本:1.4;
- Python版本:3.6;
- OS:win10;
- 本文完整项目代码:完整示例;
- 本文目标:
通过爬取腾讯招聘网站招聘岗位,熟悉scrapy,并掌握数据库存储操作;
一、准备工作 |
♣ 基础工作
首先你要安装Scrapy和了解Scrapy相关的基础知识,若你还没有安装或不太了解Scrapy框架,请移步文章:Scrapy入门–爬取cnblogs文章。
♣ 创建scrapy项目
建立项目crawl-tencent-jobs-project,在cmd命令框或Anaconda命令框下,输入如下命令:
scrapy startproject crawl_tencent_jobs_project
结果:
♣ 创建爬虫
切换到项目目录;创建爬虫;
cd crawl_tencent_jobs_project
scrapy genspider crawl_tencent_jobs hr.tencent.com
结果:
当爬虫创建成功后可以在项目目录下的spiders目录下查看爬虫文件,如下图,
本文提供两种数据存储方式:
1、存储在csv或txt文件中;
2、存储在MySQL数据库中。
这里以存储在MySQL中为例,这样便于后期爬取其他网站时的通用性,也对知识进行了更全面的覆盖。
♣ 创建数据库
在cmd命令提示符下,输入如下命令连接数据库,
mysql -h localhost -u root -p
# 提示输入秘密,输入密码即可连接mysql
在mysql命令提示符下,输入创建数据库命令,注意,这里mysql使用utf-8编码,以免编码问题影响数据存储。
CREATE DATABASE tencent_jobs DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
二、代码实现 |
♣ 分析需求
腾讯招聘网站首页较为简单,自行分析即可;这里分析招聘信息详情页面,如下图所示,地址: