scrapy全站数据爬虫基础步骤1.0

最新推荐文章于 2024-07-03 19:58:12 发布

神音sss

最新推荐文章于 2024-07-03 19:58:12 发布

阅读量144

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/oxygensss/article/details/113441919

版权

python 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

本文详细介绍了如何使用Scrapy框架创建并配置爬虫，包括创建项目、设置请求头、修改配置文件、定义爬虫逻辑，以及如何深度爬取网页内容。在Scrapy中，通过设置USER_AGENT，禁用ROBOTTEX_OBEY，调整LOG_LEVEL，并解析HTML元素来抓取职位名称和详情页URL。然后，通过Request方法对详情页发起请求，提取职位描述等关键信息。

摘要由CSDN通过智能技术生成

示例：爬取boss信息

这几条命令都是在终端输入的，在Terminal输入

1.先创建一个爬虫文件夹在创建一个文件
（先进入一个文件夹）

cd scrapy

scrapy startproject bosspro

scrapy genspider boss www.xxx.com

2.在boss中打开配置文件settings.py就是配置文件，在配置文件中粘贴一个请求头（请求头伪装）

请求头的寻找

随意打开一个网页，例如百度，鼠标右键检查N，或者F12，这个时候点开可能会没有内容所以要按一下回车，进入network，随点一个文件，找到user-agent,复制下来备用
在这里插入图片描述

3.粘贴好了请求头之后，把ROBOTEXT_OBEY = TRUE 中的TRUE改成FALSE，如图所示
在这里插入图片描述
4.在配置文件中加一排

LOG_LEVEL = 'ERROE'

5.打开爬虫文件，把这一排注释掉
在这里插入图片描述
6.把要爬取网站的url粘到start_urls中

去掉pass改成response.xpath(路径)
路径根据network 中的信息进行定位
定位到Li标签中下面的一个具体的标签

job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first

要深度爬取就要拿到超链，所以用路径找到超链，拿到详情页的url
然后对详情页发请求获取详情页的的页面源码数据，手动请求发送

yield scrapy.Request(detail_url,callback=self.parse_detail)

import scrapy


class BossSpider(scrapy.Spider):
    name = 'boss'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.zhipin.com/c101040100-p100109/?ka=search_100109']
    def parse_detail(self,response):
        job_desc=response.xpath('//*[@id="main"]/div[3]/div/div[2]//text()').extract()
        job_desc =''.join(job_desc)  #将列表转换为字符串
        print(job_desc)
    def parse(self, response):
        li_list = response.xpath('//*[@id="main"]/div/div[3]/ul/li')
        for li in li_list:
            job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first
            print(job_name)
            detail_url= 'https://www.zhipin.com '+li.xpath('.//div[@class="job-title"]/span[1]/a/@herf').extract_first
            yield scrapy.Request(detail_url,callback=self.parse_detail)