scrapy------ ItemLoader(抓取工具包)

最新推荐文章于 2022-07-11 07:35:00 发布

qq_41515494

最新推荐文章于 2022-07-11 07:35:00 发布

阅读量501

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/qq_41515494/article/details/81332680

版权

scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

from scrapy.contrib.loader import ItemLoader---------工具类（ItemLoader）----用于规范化爬取数据

以下是一个典型的ItemLoader的用法

I = ItemLoader(item=ItemLoader,response=response)

I.add_xpath(字段名，xpath表达式)

I.add_css(字段名，css表达式)

I.add_value(字段名，固定值)

............

return I.load_item()

注意：1 l.add_xpath('name', '//div[@class="product_name"]')
l.add_xpath('name', '//div[@class="product_title"]')

ItemLoader支持同一个字段从不同xpath位置提取，之后分配给item中对应的字段。

一些结合数据，数据格式化，数据清洗的方式：---处理器

from scrapy.loader.processors import Mapcompose,join

Join():把多个结果链接在一起

mapcompose()---引入Python中的一些函数。

Mapcompose(unicode.strip)---删除首尾的空白符

Mapcompose(unicode.strip，unicode.title)---删除首尾的空白符，且是结果按照标题格式

Mapcompose(float)-----把字符串转化为数值

Mapcompose(lambda i:i.replace(',',' '),float)----把字符串转化为数值,且忽略可能存在的‘，’字符。即对内容进行更改。

Mapcompose(lambda i:urlparse.urljoin(response.url,i)):---将url相对路径转化为绝对路径。

完整表达式：

i.add_xpath(字段名，xpath方法，处理器)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_41515494

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Scrapy Item Loaders机制详解

DawnRanger的专栏

11-25

1万+

1. Items爬虫的主要任务就是从非结构化的数据中获得结构化的数据。 Item 对象是种简单的容器，保存了爬取到得数据。其提供了类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。声明Item Item使用简单的class定义语法以及 Field 对象来声明。例如:import scrapyclass Product(scrapy.Item): n

Scrapy源码阅读分析_5_Scrapy-settings源码分析

墨鱼菜鸡

07-11

299

From：https://blog.csdn.net/weixin_37947156/article/details/74972642 The global defaults are located in thescrapy.settings.default_settingsmodule and documented in theBuilt-in...

参与评论您还未登录，请先登录后发表或查看评论

Itemloader

qq_40056904的博客

11-19

212

今天get到的scrapy的点, Itemloader. 1.为什么要使用Itemloader? 为了是代码便于维护。 2.怎么使用？ Itemloader（）中有两个典型的参数，item：这个是我们在items.py中定义的Item对象，response：这个可以传入函数的response参数。具体用法：对于字段的提取还可以使用add_css, add_value方法。 ...

ItemLoader

weixin_30647065的博客

12-13

1 def parse（self，response）： 2 l = ItemLoader（item = PropertiesItem（），response = response） 3 4 l.add_xpath（'title'，'// * [@ itemprop =“name”] [1] / text（）'）l.add_xpath（'price'，'.//*[@itemprop="pr...

Scrapy1.5基本概念（五）——数据项加载器（Item Loader）

ReganDu的博客

01-04

412

本文为译文，原文见地址：https://docs.scrapy.org/en/latest/topics/loaders.html 数据项加载器数据项加载器提供了一个方便的机制来填充爬取到的数据项（Item）。即使数据项可以使用它们自身的类似于字典API的方式来填充数据，但是数据项加载器提供了一个更方便的API从抓取过程中来填充它们。整个过程简单说就是通过自动化一些常见的任务——比如在分配数...

Scrapy之ItemLoader

Ding_HHD的博客

01-29

318

直接用response的xpath或css方法可以很方便地进行解析，但是代码通常会写得很杂乱。而且有时候对网页进行解析的时候，会遇到同一个字段有多个xpath逻辑的情况。例如，我在解析亚马逊商品页的时候 name = response.xpath('//span[@id="productTitle"]/text()').extract_first("") if not name: na...

python爬虫框架-----Scrapy

weixin_44568633的博客

04-23

418

文章目录一、Scrapy爬虫框架1.架构流程2.优势3.爬虫步骤4.基于Scrapy框架的三国演义、红楼梦等多文件爬取项目代码二、item1.为什么用item2.item介绍3.三、Ajax爬虫1.为什么用Ajax2.什么是Ajax3.Ajax则呢么分析页面4.基于Ajax和requests采集器的微博爬虫5.基于selenium实现爬虫一、Scrapy爬虫框架官方文档：https://doc...

Scrapy Cookbook 中文版.pdf

03-07

- 内置 ItemLoader 机制，方便处理数据并将其转换为统一格式的 Item。 - 支持 Item Pipeline，可以对抓取的数据进行清洗、验证和持久化存储。 - 支持 Feed 出口功能，将抓取的数据导出为各种格式（如 JSON、XML）...

爬虫教程（ 6 ） --- 爬虫进阶、扩展

墨鱼菜鸡

07-11

6826

1. 前言 1. 先看一个最简单的爬虫。 import requests url = "http://www.cricode.com" r = requests.get(url) print(r.text) 2. 一个正常的爬虫程序上面那个最简单的爬虫，是一个不完整的残疾的爬虫。因为爬虫程序通常需要做的事情如下： 1)给定的种子 URLs，...

scrapy教程

06-13

- **ItemLoader**：用于从响应中加载Item，并允许定义如何填充Item字段。 - **Scrapy Shell**：Scrapy Shell是一个交互式环境，允许用户测试选择器和调试爬虫逻辑。 - **Item Pipeline**：Item Pipeline是一系列处理...

Python爬虫-Scrapy的item loader

本以为成功很简单，没想到活成普通人都需拼尽全力！

08-14

1459

使用Scrapy爬取伯乐在线的文章，将爬取的数据保存到MySQL数据库中。创建项目使用Scrapy命令来创建项目。梳理整体逻辑关系我们先来分析一下整体的流程，我们想要获取，文章的图片，标题，发布的时间，详情页的链接，点赞数，收藏数，评论数。我们首先需要获取的是每一篇文章的详情页链接，图片地址，以及，下一页的地址。而后进入到文章的详情页，去获取文章的标题，发布日期，点赞数，评论数，收...

Python爬虫笔记（九）——Scrapy官方文档阅读——Itemloader

菜到怀疑人生的博客

08-08

2091

什么是itemloader Itemloader提供了一种机制，可以很方便的填充item 使用ItemLoader填充item 首先需要初始化Itemloader，可以用字典或是item作为构造函数的参数，如果没有指定，Itemloader会自己自动初始化一个item（对应属性ItemLoader.default_item_class），下面是一个使用例子（使用之前构造好的Pro...

Scrapy源码学习-ItemLoader

潘森迷的博客

02-13

1152

item 在scrapy项目结构中，有一个items.py的文件，在里面是专门存放和定义抓取数据字段的。这当然不是强制性要求的。但这种数据字段的定义能够更好地约束未来抓取字段，并且开发者可以一目了然的知道抓了哪些数据。比如我们需要抓取影视网站，可以这样定义： class MovieItem(scrapy.Item): title = scrapy.Field() url = scrapy.Field() cover = scrapy.Field() actors = scr

ItemLoader-scrapy框架6-python

gaogzhen的博客

05-29

267

scrapy 中的Item Loader组件使用入门

【Scrapy ITem】Item Loaders（项目加载器）学习初探

之度的博客

02-20

283

Item Loaders（项目加载器）,意义，当项目很大的时候，提取的字段数以百计，做维护是很困难的。所以scrapy就提供了ItemLoader这样一个容器，在这个容器里面可以配置item中各个字段的提取规则。可以通过函数分析原始数据，并对Item字段进行赋值，非常的便捷。参考网站：https://blog.csdn.net/zwq912318834/article...

itempython_scrapy中使用item_loader加载item

weixin_42307478的博客

02-01

150

### **scrapy中使用item loader加载item****1.jobbole.py**~~~# -*- coding: utf-8 -*-import reimport scrapyimport datetimefrom scrapy.http import Requestfrom urllib import parse#引入itemLoaderfrom scrapy.loader ...

多页数据的爬取（使用ItemLoader填充容器）

Triumph19的博客

07-11

400

使用ItemLoader填充容器目前我们爬取的数据的字段较少，但是当项目很大、提取的字段数以百计时，数据的提取规则也会越来越多，再加上还要对提取到的数据做转换处理，代码就会变得庞大，维护起来十分困难。为了解决这个问题，Scrapy提供了项目加载器（ItemLoder）这样一个填充容器。通过填充容器，可以配置Item中各个字段的提取规则，并通过函数分析原始数据，最后对Item字段赋值，使用起来非常便捷。 Item和ItemLoder的区别在于： Item提供了保存抓取到的数据的容器，需要手动保存于容器中

ItemLoader分离数据

HukDog的博客

08-14

329

一般分离数据可以在主爬虫程序中进行，也可以在数据模型items中进行. 使用itemloader有如下优势： 1.默认使用xpath()/css()这种数据提取方式 2.将数据的提取和数据的过滤等过程放在一个函数中，将数据提取和分离分成两部分使代码美观，整洁，便于阅读 3.单独定义处理数据的函数，同意数据可使用多函数处理，便于代码复用 items数据模型中导入模块及使用 import...

itemloader保存数据（伯乐在线为例）

。。莹的博客

07-17

533

代码如下：主要结构： # -*- coding: utf-8 -*- import scrapy from ..items import JobboleItem from urllib.parse import urljoin from scrapy.loader import ItemLoader class BoleSpider(scrapy.Spider): name...

Scrapy-Redis分布式爬虫构建与原理详解

Scrapy-redis分布式爬虫搭建理论详解 Scrapy是一个功能强大的通用爬虫框架，但其本身并不支持分布式爬取。...在整个过程中，Scrapy-redis提供了对分布式爬虫的强大支持，使得大规模数据抓取变得更加容易和高效。