scrapy全站数据爬虫基础步骤1.0

本文详细介绍了如何使用Scrapy框架创建并配置爬虫,包括创建项目、设置请求头、修改配置文件、定义爬虫逻辑,以及如何深度爬取网页内容。在Scrapy中,通过设置USER_AGENT,禁用ROBOTTEX_OBEY,调整LOG_LEVEL,并解析HTML元素来抓取职位名称和详情页URL。然后,通过Request方法对详情页发起请求,提取职位描述等关键信息。
摘要由CSDN通过智能技术生成

示例:爬取boss信息

这几条命令都是在终端输入的,在Terminal输入

1.先创建一个爬虫文件夹 在创建一个文件
(先进入一个文件夹)

cd scrapy
scrapy startproject bosspro
scrapy genspider boss www.xxx.com

2.在boss中打开配置文件settings.py就是配置文件,在配置文件中粘贴一个请求头(请求头伪装)

请求头的寻找

随意打开一个网页,例如百度,鼠标右键检查N,或者F12,这个时候点开可能会没有内容所以要按一下回车,进入network,随点一个文件,找到user-agent,复制下来备用
在这里插入图片描述

3.粘贴好了请求头之后,把ROBOTEXT_OBEY = TRUE 中的TRUE改成FALSE,如图所示
在这里插入图片描述
4.在配置文件中加一排

LOG_LEVEL = 'ERROE'

5.打开爬虫文件,把这一排注释掉
在这里插入图片描述
6.把要爬取网站的url粘到start_urls中
在这里插入图片描述
去掉pass改成response.xpath(路径)
路径根据network 中的信息进行定位
定位到Li标签中下面的一个具体的标签

job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first

要深度爬取就要拿到超链,所以用路径找到超链,拿到详情页的url
然后对详情页发请求获取详情页的的页面源码数据,手动请求发送

yield scrapy.Request(detail_url,callback=self.parse_detail)

import scrapy


class BossSpider(scrapy.Spider):
    name = 'boss'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.zhipin.com/c101040100-p100109/?ka=search_100109']
    def parse_detail(self,response):
        job_desc=response.xpath('//*[@id="main"]/div[3]/div/div[2]//text()').extract()
        job_desc =''.join(job_desc)  #将列表转换为字符串
        print(job_desc)
    def parse(self, response):
        li_list = response.xpath('//*[@id="main"]/div/div[3]/ul/li')
        for li in li_list:
            job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first
            print(job_name)
            detail_url= 'https://www.zhipin.com '+li.xpath('.//div[@class="job-title"]/span[1]/a/@herf').extract_first
            yield scrapy.Request(detail_url,callback=self.parse_detail)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值