【Python】Scrapy ItemLoader 处理空列表让数据库字段为空值

最新推荐文章于 2022-04-05 11:23:29 发布

淡之梦

最新推荐文章于 2022-04-05 11:23:29 发布

阅读量2.5k

点赞数 3

分类专栏： Python 文章标签： scrapy python 爬虫

本文链接：https://blog.csdn.net/m0_37323771/article/details/83211816

版权

问题描述

我需要爬取某些招聘网页上的信息，但不是所有招聘网页中展示的信息都一样，例如有些网页上并没有附上公司网址，而如果没有需要在数据库相应的字段中赋值为空。

方法一：不使用itemLoader

使用extract_first()取得列表第一个元素，默认值为‘’，但这不适用列表中有多个元素，比如不止爬取一个标签

def parse_detail(self, response):
        article_item = JobBoleArticleItem()
        tag_list = response.css("p.entry-meta-hide-on-mobile a::text").extract_first('')

使用extract()能取得整个列表，但需要再做进一步处理，list类型无法插入数据库

tag_list = response.css("p.entry-meta-hide-on-mobile a::text").extract()
if not tag_list:
	tag_list.append('')
	return tag_list[0]

方法二：使用ItemLoader

推荐使用ItemLoader

    def parse_job(self, response):
        item_loader = ShixiJobItemLoader(item=ShixiJobItem(), response=response)
        item_loader.add_css("job

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

淡之梦

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Scrapy爬虫框架 ItemLoader 数据加载器

Mr数据杨

02-01

3万+

在 Scrapy 框架中，ItemLoader是一个用于简化数据提取和清洗的强大工具。它将数据的提取、清洗和加载集中在一起，减少了重复代码，并提高了抓取数据的质量和一致性。通过ItemLoader，可以在抓取数据的过程中应用各种处理逻辑，如格式化、清理和设置默认值等。使用ItemLoader有助于使代码更加简洁和可维护，尤其是当需要对数据进行预处理时。它支持通过add_xpathadd_cssadd_value方法将数据添加到ItemLoader中，并通过方法将数据加载到 Item 对象中。步骤描述。

python Scrapy进阶（MongoDB）

Jaydenzuo的博客

03-16

630

MongoDB数据库MongoDB简介安装MongoDB的使用数据库命名规范MongoDB中的概念MongoDB的数据类型启动和连接MongoDB基本使用集合/表的创建、删除和查询插入数据 MongoDB 简介 MongoDB —— 非关系型数据库（像关系型数据库的非关系型数据库），数据类型灵活优势无数据结构限制，业务开发方便快捷大数据量和高性能 —— 读写性能高良好的支持 —— 支持跨平台安装安装下载地址：https://www.mongodb.com/download-cente

参与评论您还未登录，请先登录后发表或查看评论

Scrapy——ItemLoader空值报错问题

weixin_42428357的博客

08-24

923

ItemLoader空值报错问题 1. 问题描述 1）目标网站：https://news.cnblogs.com/ 2）问题背景：在抓取文章的tags时，有些文章有这个信息，有些文章没有这个信息。scrapy-spider在解析的时候使用itemloader机制解析填充数据。但是当遇到页面没有这个属性的文章时，解析为空，itemloader默认不填充，数据对象为None。在向数据库保存数据时...

Scrapy

aspirinLi的博客

12-03

282

一、创建项目在命令行里进入到创建项目的文件夹，输入命令 scrapy startproject 项目名

scrapy调试正常，输出为空的原因。。

蔡定交

08-30

1471

scrapy调试正常执行爬虫，打印的时候为空这是为什么呢，，， 1.源代码里是h2 2.xpath里也是h2，并且调试也能正常抓取到，为啥执行为空。。 3.细心的朋友已经发现了吧，抓取后的数据已经从h2变成了h3.。。。。。。。 4.把h2改成h3，正常抓取。。第一次遇到这种情况，记录一下。。 ...

scrapy xpath空列表_Python 爬虫之Scrapy中

weixin_42515340的博客

01-13

347

1基本概念说明Scrapy数据解析主要有两个大类：xpath() 和 css() ，今天这篇文章主要讲解xpath如何解析我们想获取的页面数据。同时Scrapy还给我们提供自己的数据解析方法，即Selector(选择器)，Selector是一个可独立使用的模块，我们可以用Selector类来构建一个选择器对象，然后调用它的相关方法如xpaht(), css()等来提取数据，它的常用写...

pycharm安装scrapy失败_我的第一个爬虫——Scrapy爬虫详细操作入门指南（1）

weixin_39928017的博客

12-08

208

工作原因，scrapy爬虫速成，在这里带爬虫小白们入门~争取以最详细、简单、易懂的方式带你入门~以下大部分内容是操作记录，尽量详细以提高可操作性，以备与小白君们分享，也有助于今后个人复习。首先总结一下爬虫的几大步骤：一、创建项目和爬虫文件；二、修改爬虫spider（即spider文件夹中你自己创建的py文件）： 1、定义链接，即你要爬取的网站url； 2、提取页面，明确你想爬取页面的范...

Python-scrapy抓取链家网二手房成交数据

08-10

Python-scrapy是一个强大的框架，专为网络爬虫设计，用于高效、结构化地抓取大量网页数据。在本项目中，“Python-scrapy抓取链家网二手房成交数据”旨在利用Scrapy来收集链家网上关于二手房成交的具体信息，如房源...

《使用 Python 和 Scrapy 半小时爬了 10 个在线商店的网页》

PyhtonChen的博客

12-02

839

Scrapy 是 Python 开发的一个快速，高层次的屏幕抓取和 web 抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。本文作者 Erdem İşbilen 为我们演示了如何使用 Python 和 Scrapy 怎样在半个小时内对 10 个在线商店抓取信息。有了 Python 和 Scrapy，我们就可以完成大...

Scrapy——Item Exporters

mashaokang1314的博客

09-19

838

什么是Item Exporters？当你抓取了你想要的数据，你就会想要将他们持久化或导出它们，并应用在其他程序。这是整个抓取过程的目的。为此，Scrapy 提供了Item Exporters来创建不同的输出格式。如何工作？为了使用Item Exporter，你必须对Item Exporter及其参数实例化。每个Item Exporter需要考虑不同的参数。在实例化exporter之后，你必须...

Scrapy——基本用法（命令行工具、Item、Spiders）

mashaokang1314的博客

09-15

2603

命令行工具创建项目 scrapy startproject myproject 该命令经会在myproject目录中创建一个Scrapy项目。进入到项目根目录，就可以使用scrapy命令来管理和控制你的项目了。控制项目有些Scrapy命令要求在Scrapy项目中运行。另外注意，有些命令在项目里运行时的效果有些区别。 scrapy &amp;lt;command&amp;gt; -h 查看所...

python爬取内容为空怎么剔除_用scrapy爬取网站内容时，如何忽略某些内容为空的值；...

weixin_39943586的博客

11-30

218

我爬取京东上所有手机信息时会碰到如下问题：1、返回值过多，如下图片所示：2、spider代码如下：-- coding: utf-8 --import scrapyfrom scrapy.http import Requestfrom ueinfo.items import UeinfoItemclass MrueSpider(scrapy.Spider):name = 'mrue'allowed_...

Scrapy框架 settings.py文件中常用的配置值

12-17

604

settins配置文件

用Python处理Excel表格

weixin_56659172的博客

04-05

8684

Excel是Windows环境下流行而强大的电子表格程序。openpyxl模块可以让Python程序能读取和修改Excel表格文件。例如，你可能有一个无聊的任务，需要从一个表格中复制一些数据，粘贴到另一个表格中。或者可能需要从几千行中挑选出几行，并根据某个条件稍作修改。或者需要查看几百份部门预算电子表格，找到其中的赤字。这些无聊的任务都可以用Python完成。 Excel文档一个Excel电子表格文件称为一个工作簿。一个工作簿保存在扩展名为.xlsx的文件中。每个工作簿可以包含多个表（也称为工作表）。

解决用Python 操作数据库插入数据，数据库里面却没有数据的问题

GodLordGee的博客

08-09

2万+

最近在做项目时需要连接数据库进行测试，于是需要先把Excel数据导入到数据库里面去，Python 操作sql server数据库的代码大致如下（操作mysql 代码和这个差不多，只是包和连接信息的不同，可以自行百度）： import pymssql import pandas as pd server = "192.168.20.236:1433"#数据库地址以及端口 user = "sa"...

python读取excel文件并自动在mysql中建表导数据

纯洁的小魔鬼

11-24

2724

""" 根据excel在mysql中建表(表名为文件名,字段为csv中的header,默认所有字段为varchar,如需更改,在数据库中更改即可),并插入数据 """ import xlrd import pymysql from datetime import date, datetime # 建表并生成插入语句 from xlrd import xldate_as_tuple def...

多页数据的爬取（使用ItemLoader填充容器）

Triumph19的博客

07-11

411

使用ItemLoader填充容器目前我们爬取的数据的字段较少，但是当项目很大、提取的字段数以百计时，数据的提取规则也会越来越多，再加上还要对提取到的数据做转换处理，代码就会变得庞大，维护起来十分困难。为了解决这个问题，Scrapy提供了项目加载器（ItemLoder）这样一个填充容器。通过填充容器，可以配置Item中各个字段的提取规则，并通过函数分析原始数据，最后对Item字段赋值，使用起来非常便捷。 Item和ItemLoder的区别在于： Item提供了保存抓取到的数据的容器，需要手动保存于容器中

关于scrapy爬虫获取具体标签内容为空的解决方法

ainingzetao的博客

08-11

1万+

在确认自己xpath或css部分写对的前提下，且在浏览器该网站能匹配到相关内容，为空原因：有些标签是浏览器规范化额外加上去的，实际的网页源码并没有，例如font,tbody,（目前就遇到这两个，大家可以自行查找还有哪些，不过操作应该差不多。）解决方法：若代码pub_time = response.xpath('//ul[@class="article-info"]//font/font/t...

Scrapy笔记（5）- Item详解