利用scrapy轻松爬取招聘网站信息并存入MySQL

前言
  1. Scrapy版本:1.4;
  2. Python版本:3.6;
  3. OS:win10;
  4. 本文完整项目代码:完整示例
  5. 本文目标:
    通过爬取腾讯招聘网站招聘岗位,熟悉scrapy,并掌握数据库存储操作;
一、准备工作
♣   基础工作

首先你要安装Scrapy和了解Scrapy相关的基础知识,若你还没有安装或不太了解Scrapy框架,请移步文章:Scrapy入门–爬取cnblogs文章。

♣   创建scrapy项目

建立项目crawl-tencent-jobs-project,在cmd命令框或Anaconda命令框下,输入如下命令:

scrapy startproject crawl_tencent_jobs_project

结果:
这里写图片描述

♣   创建爬虫

切换到项目目录;创建爬虫;

cd crawl_tencent_jobs_project
scrapy genspider crawl_tencent_jobs hr.tencent.com

结果:
这里写图片描述

当爬虫创建成功后可以在项目目录下的spiders目录下查看爬虫文件,如下图,
这里写图片描述

本文提供两种数据存储方式:
1、存储在csv或txt文件中;
2、存储在MySQL数据库中。
这里以存储在MySQL中为例,这样便于后期爬取其他网站时的通用性,也对知识进行了更全面的覆盖。

♣   创建数据库

在cmd命令提示符下,输入如下命令连接数据库,

mysql -h localhost -u root -p
# 提示输入秘密,输入密码即可连接mysql

在mysql命令提示符下,输入创建数据库命令,注意,这里mysql使用utf-8编码,以免编码问题影响数据存储。

CREATE DATABASE tencent_jobs DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
二、代码实现
♣   分析需求

腾讯招聘网站首页较为简单,自行分析即可;这里分析招聘信息详情页面,如下图所示,地址:

  • 5
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值