python爬虫 scrapy 爬取腾讯招聘

最新推荐文章于 2020-07-05 11:50:09 发布

Mr.Zheng~_

最新推荐文章于 2020-07-05 11:50:09 发布

阅读量1.3k

点赞数 4

分类专栏：爬虫

本文链接：https://blog.csdn.net/mgmgzm/article/details/85851359

版权

本文详细介绍了如何使用Python的Scrapy框架爬取腾讯的招聘信息。从创建项目开始，到需求分析，包括获取搜索结果页、详情信息的抓取以及数据的二次解析。接着配置了settings文件，定义了spider和items文件，确保items中的字段与爬取的数据匹配。通过pipelines处理数据，并运行爬虫。最后，将爬取到的数据导出到MongoDB数据库。

摘要由CSDN通过智能技术生成

第一步创建项目：

移步 https://blog.csdn.net/mgmgzm/article/details/85849918 查看项目创建方法

第二步需求分析：

1) 获取腾讯招聘搜索结果页

2) 获取每一条结果对应的详情信息

3) 二次解析页面

第三步废话少说上代码：

setting文件配置：

# 打开请求头
USER_AGENT = 'day9 (+http://www.yourdomain.com)'

# 将 ROBOTSTXT_OBEY 的值改为False
ROBOTSTXT_OBEY = False

# 打开 ITEM_PIPELINES
ITEM_PIPELINES = {
   'day9.pipelines.Day9Pipeline_tengxun': 300,
}

# 记录日志，在setting末尾加入
LOG_FILE = 'meiju.log'
LOG_ENABLED = True
LOG_ENCODING = 'utf-8'
LOG_LEVEL = 'DEBUG'

spider文件：

# -*- coding: utf-

最低0.47元/天解锁文章

Mr.Zheng~_

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫 scrapy 爬取腾讯招聘

第一步创建项目：移步 https://blog.csdn.net/mgmgzm/article/details/85849918 查看项目创建方法第二步需求分析：1) 获取腾讯招聘搜索结果页2) 获取每一条结果对应的详情信息3) 二次解析页面第三步废话少说上代码：setting文件配置：# 打开请求头USER_AGENT = 'day9 (+http://w...
复制链接

扫一扫

专栏目录