利用scrapy轻松爬取招聘网站信息并存入MySQL

最新推荐文章于 2024-05-13 22:06:27 发布

女神对面的waltsmith

最新推荐文章于 2024-05-13 22:06:27 发布

阅读量4.9k

点赞数 5

分类专栏： Python MySQL 文章标签： scrapy 爬虫 mysql python 招聘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chengcheng95588/article/details/78966932

版权

前言

Scrapy版本：1.4；
Python版本：3.6；
OS：win10；
本文完整项目代码：完整示例；
本文目标：
通过爬取腾讯招聘网站招聘岗位，熟悉scrapy，并掌握数据库存储操作；

一、准备工作

♣ 基础工作

首先你要安装Scrapy和了解Scrapy相关的基础知识，若你还没有安装或不太了解Scrapy框架，请移步文章：Scrapy入门–爬取cnblogs文章。

♣ 创建scrapy项目

建立项目crawl-tencent-jobs-project，在cmd命令框或Anaconda命令框下，输入如下命令：

scrapy startproject crawl_tencent_jobs_project

结果：
这里写图片描述

♣ 创建爬虫

切换到项目目录；创建爬虫；

cd crawl_tencent_jobs_project
scrapy genspider crawl_tencent_jobs hr.tencent.com

结果：
这里写图片描述

当爬虫创建成功后可以在项目目录下的spiders目录下查看爬虫文件，如下图，
这里写图片描述

本文提供两种数据存储方式：
1、存储在csv或txt文件中；
2、存储在MySQL数据库中。
这里以存储在MySQL中为例，这样便于后期爬取其他网站时的通用性，也对知识进行了更全面的覆盖。

♣ 创建数据库

在cmd命令提示符下，输入如下命令连接数据库，

mysql -h localhost -u root -p
# 提示输入秘密，输入密码即可连接mysql

在mysql命令提示符下，输入创建数据库命令，注意，这里mysql使用utf-8编码，以免编码问题影响数据存储。

CREATE DATABASE tencent_jobs DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

二、代码实现

♣ 分析需求

腾讯招聘网站首页较为简单，自行分析即可；这里分析招聘信息详情页面，如下图所示，地址：

最低0.47元/天解锁文章

女神对面的waltsmith

关注

5
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
利用scrapy轻松爬取招聘网站信息并存入MySQL

Scrapy版本：1.4；Python版本：3.6；OS：win10；本文完整项目代码：完整示例；本文目标：通过爬取腾讯招聘网站招聘岗位，熟悉scrapy，并掌握数据库存储操作；
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。