【Scrapy从青铜到王者】第一篇：Scrapy理解

最新推荐文章于 2023-06-04 17:34:33 发布

最新推荐文章于 2023-06-04 17:34:33 发布

分类专栏：网络爬虫随笔集文章标签： python 中间件爬虫框架分享

# 基于终端存储 方式
import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # 解析：作者的名称+段子内容
        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')
        for div in div_list:
            # author  content 不是返回值 是局部变量
            all_data = []  # 存储所有解析到的数据
            # author = div.xpath('./div[学习计划]/a[2]/h2/text()')[0].extract()  # [0] 列表长度
            author = div.xpath('./div[学习计划]/a[2]/h2/text()').extract_first()
            # [0] 列表长度  一定要确定 该列表中只有一个列表元素才可以用extract_first() 将列表中第0个元素变成字符串

            # 所有 xpath取回的都是列表 , 但是列表一定是Selector类型对象
            # extract 可以将Selector 对象中data参数储存的字符串提取出来
            content = div.xpath('./a[学习计划]/div/span//text()').extract()
            # 现在本身就是列表  但是列表也能调用.extract()  但返回的是一个列表
            # 列表调用.extract()之后，则表示将列表中每个Selector对象中的data对应的字符串提取出来
            content = ''.join(content)  # 列表转成字符串
            # print(author, content)
            dic = {
                'author': author,
                'content': content
            }

            all_data.append(dic)
            return all_data

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
4
评论
【Scrapy从青铜到王者】第一篇：Scrapy理解

什么是框架：就是一个集成了很多功能，并且具有很强的通用性的一个项目模板如何学习框架：专门学习框架封装的各种功能的详细用法什么是scrapy ：爬虫中封装好的一个明星框架。功能：学习计划.高性能持久化存储，异步的数据下载，高性能的数据解析，分布式scrapy 框架的基本使用：环境安装：-mac或者linux pip install scrapy -win pip install wheel...
复制链接

扫一扫

【Scrapy从青铜到王者】第一篇：Scrapy理解

什么是框架：就是一个集成了很多功能，并且具有很强的通用性的一个项目模板

如何学习框架： 专门学习框架封装的各种功能的详细用法

什么是scrapy ：爬虫中封装好的一个明星框架。

功能： 学习计划.高性能持久化存储，异步的数据下载，高性能的数据解析，分布式

scrapy.cfg 配置文件 目前用不到 spiders 爬虫文件夹或者为爬虫目录 里面一定要放入一个 爬虫源文件 pipelines.py 配置 settings.py工程的配置文件 经常使用

干扰数据清除 ： scrapy crawl py文件名称 --nolog

-- 数据解析 ：糗百案例yiubaiPro

-- 五大核心组件： 引擎 ，管道 ，引擎 ，下载器 ，spider ---》互联网 - spider --》引擎--》调度器--》过滤器 - spider --》引擎--》调度器--》队列

-- 请求传参：应用的非常广 --使用场景: 如果爬取解析的数据不在同一张页面中。（深度爬取） --需求 ：爬取boos的直聘的岗位名称和岗位描述 --我们爬取的解析数据不在同一个页面 就要用 请求传参

- 在配置文件中操作: - 制定图片存放目录: IMAGES_STORE = './img_Jg' - 制定开启的管道:自定制的管道类

- 需求 ： - 爬取sun网站中的编号、新闻标题、新闻的内容、编号 - 分析： 爬取的数据不在同一张页面中。 - 1.使用链接提取器提取出页面所有链接 - 2.让链接提取器提取详情页的链接 （用两次）

如何学习框架：专门学习框架封装的各种功能的详细用法

功能：学习计划.高性能持久化存储，异步的数据下载，高性能的数据解析，分布式

scrapy.cfg 配置文件目前用不到 spiders 爬虫文件夹或者为爬虫目录里面一定要放入一个爬虫源文件
pipelines.py 配置 settings.py工程的配置文件经常使用

干扰数据清除： scrapy crawl py文件名称 --nolog

-- 数据解析：糗百案例yiubaiPro

-- 五大核心组件：引擎，管道，引擎，下载器，spider ---》互联网
- spider --》引擎--》调度器--》过滤器
- spider --》引擎--》调度器--》队列

-- 请求传参：应用的非常广
--使用场景: 如果爬取解析的数据不在同一张页面中。（深度爬取）
--需求：爬取boos的直聘的岗位名称和岗位描述
--我们爬取的解析数据不在同一个页面就要用请求传参

- 在配置文件中操作:
- 制定图片存放目录: IMAGES_STORE = './img_Jg'
- 制定开启的管道:自定制的管道类

- 需求：
- 爬取sun网站中的编号、新闻标题、新闻的内容、编号
- 分析：爬取的数据不在同一张页面中。
- 1.使用链接提取器提取出页面所有链接
- 2.让链接提取器提取详情页的链接（用两次）