使用scrapy框架爬boss直聘

最新推荐文章于 2024-05-09 20:44:33 发布

一个回和

最新推荐文章于 2024-05-09 20:44:33 发布

阅读量1.4k

点赞数 1

分类专栏： Scrapy框架高级爬虫项目文章标签： scrapy框架 BOSS直聘

本文链接：https://blog.csdn.net/g_optimistic/article/details/90083479

版权

本文介绍了如何使用scrapy框架来爬取BOSS直聘网站上的职位数据。首先找到BOSS直聘的接口URL，然后创建scrapy项目，包括spider文件s_boss.py、items.py和pipelines.py。在请求URL时，需要注意设置请求头的USER_AGENT。同时，在items.py中定义数据结构，pipelines.py中配置数据处理流程。

摘要由CSDN通过智能技术生成

BOSS直聘：https://www.zhipin.com/

创建scrapy 项目：

scrapy startproject scrapyProject

创建spider文件:

scrapy genspider s_boss zhipin.com

1.找接口 url

page后面传的是页数

https://www.zhipin.com/c101010100/?query=python&page={}&ka=page-next

2.s_boss.py

# -*- coding: utf-8 -*-
import scrapy
from scrapyProject.items import BossItem
from lxml import etree


class SBossSpider(scrapy.Spider):
    name = 's_boss'
    allowed_domains = ['zhipin.com']
    start_urls = []
    for page in range(1, 11):
        url = 'https://www.zhipin.com/c1010101

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一个回和

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
使用scrapy框架爬boss直聘

BOSS直聘：https://www.zhipin.com/创建scrapy 项目：scrapy startproject scrapyProject创建spider文件:scrapy genspider s_boss zhipin.com目录1.找接口 url2.s_boss.py3.items.py4.pipelines.py1.找接口 urlp...
复制链接

扫一扫