![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据保存
转身及不见
菜鸟一个,正在学习中,写博客是为了方便自己以后查找笔记,但也希望能帮助一些需要的人。
展开
-
scrapy数据库异步写入
项目名为jobbole, spiders中的代码块文件名为bole.py 爬取网站为伯乐在线的最新文章 pipelines.py代码 # 数据库pymysql的commit()和execute()在提交数据时,都是同步提交至数据库,由于scrapy框架数据的解析是异步多线程的,所以scrapy的数据解析速度,要远高于数据的写入数据库的速度。如果数据写入过慢,会造成数据库写入的阻塞,影响数据...原创 2018-07-09 21:30:07 · 1327 阅读 · 1 评论 -
itemloader保存数据(伯乐在线为例)
代码如下: 主要结构: # -*- coding: utf-8 -*- import scrapy from ..items import JobboleItem from urllib.parse import urljoin from scrapy.loader import ItemLoader class BoleSpider(scrapy.Spider): name...原创 2018-07-17 22:20:38 · 520 阅读 · 0 评论 -
创建一个.xls的文件到本地(Excel表,注意同scrapy中的区别)
通过代码创建一个.xls的文件到本地,并写入多条数据,比如姓名,年龄,身高,体重等import xlwtbook = xlwt.Workbook()sheet = book.add_sheet('stu')sheet.write(0, 0, '姓名')sheet.write(0, 1, '年龄')sheet.write(0, 2, '身高')sheet.write(0, 3, '体重') list...原创 2018-07-13 19:52:37 · 327 阅读 · 0 评论 -
ItemLoader对获取的数据提取和过滤步骤
1.在创建item_loader对象的时候,会执行item对象中input_processor和output_processor的初始化;2.在执行add_xpath、add_css、add_value函数的时候,会将提取得结果交给input_processor进行结果的处理,结果处理完以后暂时保存在item_loader中;3.等数据提取完毕,调用load_item()方法,执行output_p...原创 2018-07-13 21:30:15 · 642 阅读 · 0 评论