python爬虫 scrapy 爬取腾讯招聘

本文详细介绍了如何使用Python的Scrapy框架爬取腾讯的招聘信息。从创建项目开始,到需求分析,包括获取搜索结果页、详情信息的抓取以及数据的二次解析。接着配置了settings文件,定义了spider和items文件,确保items中的字段与爬取的数据匹配。通过pipelines处理数据,并运行爬虫。最后,将爬取到的数据导出到MongoDB数据库。
摘要由CSDN通过智能技术生成

第一步创建项目:

移步 https://blog.csdn.net/mgmgzm/article/details/85849918 查看项目创建方法

第二步需求分析:

1) 获取腾讯招聘搜索结果页

2) 获取每一条结果对应的详情信息

3) 二次解析页面

第三步废话少说上代码:

setting文件配置:

# 打开请求头
USER_AGENT = 'day9 (+http://www.yourdomain.com)'

# 将 ROBOTSTXT_OBEY 的值改为False
ROBOTSTXT_OBEY = False

# 打开 ITEM_PIPELINES
ITEM_PIPELINES = {
   'day9.pipelines.Day9Pipeline_tengxun': 300,
}

# 记录日志,在setting末尾加入
LOG_FILE = 'meiju.log'
LOG_ENABLED = True
LOG_ENCODING = 'utf-8'
LOG_LEVEL = 'DEBUG'

spider文件:

# -*- coding: utf-
  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值