![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy学习
文章平均质量分 89
lee's work
目前求职中,对于数据分析挖掘,对各类机器学习算法有很大兴趣,想从事相关工作,学习和磨练真实业务场景下模型的应用和落地方式,以实际业务中学习提升为乐
展开
-
Chapter 9.3 项目练习-下载image
9.3 项目实战:下载360图片 下面来完成一个使用ImagesPipeline下载图片的实战项目。360图片是一个知名的图片搜索网站,在浏览器中打开http://image.so.com,页面如图9.3-1所示。图9.3-1 其中,汽车分类下有大量字画图片,我们可以编写爬虫爬取这些图片。其中,汽车分类下有大量字画图片,我们可以编写爬虫爬取这些图片。![图9.3-2](https://img-blog.csdnimg.cn/882a8e1ae5eb49ee81edeca815cec180.p原创 2021-11-28 14:24:00 · 226 阅读 · 1 评论 -
Charpter9 下载文件和图片
第9章 下载文件和图片 下载文件也是实际应用中很常见的一种需求,例如使用爬虫爬取网站中的图片、视频、WORD文档、PDF文件、压缩包等。本章来学习在Scrapy中如何下载文件和图片。9.1 FilesPipeline和ImagesPipeline Scrapy框架内部提供了两个Item Pipeline,专门用于下载文件和图片:FilesPipelineImagesPipeline 可将这两个Item Pipeline看作特殊的下载器,用户使用时只需要通过item的一个特殊原创 2021-11-23 20:25:24 · 648 阅读 · 0 评论 -
第8章 scrapy项目练习
第8章 项目练习在一本书的页面中可以获取以下信息:● 书名√● 价格√● 评价等级√● 书籍简介● 产品编码√● 产品类型● 税价● 库存量√● 评价数量√8.1 项目需求爬取http://books.toscrape.com网站中的书籍信息。(1)其中每一本书的信息包括: 书名 价格 评价等级 产品编码 库存量 评价数量(2)将爬取的结果保存到csv文件中。8.2 页面分析页面分析工具:Chrome开发者工具常用的工具: scrapy shell 命令原创 2021-11-16 09:57:53 · 672 阅读 · 0 评论 -
chapter7 使用Exporter导出数据
第7章 使用Exporter导出数据 之前章节的学习了Scrapy中爬取数据、封装数据、处理数据的相关技术,本章学习如何将爬取到的数据以某种数据格式保存到文件中,即导出数据。 在Scrapy中,负责导出数据的组件被称为Exporter(导出器),Scrapy内部实现了多个Exporter,每个Exporter实现一种数据格式的导出,支持的数据格式如下(括号中为相应的Exporter):(1)JSON (JsonItemExporter)(2)JSON lines (JsonLinesItemE原创 2021-11-10 15:59:09 · 1428 阅读 · 0 评论 -
Chapter6 使用LinkExtractor提取链接
第6章 使用LinkExtractor提取链接 在爬取一个网站时,想要爬取的数据通常分布在多个页面中,每个页面包含一部分数据以及到其他页面的链接,提取页面中数据的方法大家已经掌握,提取链接有使用Selector和使用LinkExtractor两种方法。 本章来学习如何提取页面中的链接。1.使用Selector 因为链接也是页面中的数据,所以可以使用与提取数据相同的方法进行提取,在提取少量(几个)链接或提取规则比较简单时,使用Selector就足够了。2.使用LinkExtractor原创 2021-11-09 10:33:35 · 986 阅读 · 0 评论 -
Chapter3.3 xpath内容整理
文章目录3.3 XPath3.3.1 基础语法3.3 XPath XPath即XML路径语言(XML Path Language),它是一种用来确定xml文档中某部分位置的语言。 xml文档(html属于xml)是由一系列节点构成的树,例如:<html> <body> <div > <p>Hello world<p> <a href="/home">Click here</a> </原创 2021-10-28 15:57:22 · 67 阅读 · 0 评论 -
Chapter3.4/3.5 scrapy-css选择器及本章小结
3.4 CSS选择器 CSS即层叠样式表,其选择器是一种用来确定HTML文档中某部分位置的语言。 CSS选择器的语法比XPath更简单一些,但功能不如XPath强大。实际上,当我们调用Selector对象的CSS方法时,在其内部会使用Python库cssselect将CSS选择器表达式翻译成XPath表达式,然后调用Selector对象的XPATH方法。 表3-2列出了CSS选择器的一些基本语法。表3-2 CSS选择器表 达 式描 述例 子原创 2021-10-29 16:13:44 · 162 阅读 · 0 评论 -
scrapy 使用mongo连接数据库的三种方法
scrapy 使用mongoDB的三种方法(1)硬编码pipelines.pyfrom scrapy.item import Itemimport pymongo #提前用pip安装class MongoDBPipeline(object): DB_URI = 'mongodb://localhost:27017/' #直接将DB_URI,DB_NAME 写下具体的内容,随后在setting中配置 DB_NAME = 'scrapy_data' def open_spider(self, s原创 2021-11-03 11:01:02 · 1097 阅读 · 0 评论 -
chapter 5 使用Item Pipeline处理数据
第5章 使用Item Pipeline处理数据 在之前的章节中,我们学习了提取数据以及封装数据的方法,这一章来学习如何对爬取到的数据进行处理。在Scrapy中,Item Pipeline是处理数据的组件,一个Item Pipeline就是一个包含特定接口的类,通常只负责一种功能的数据处理,在一个项目中可以同时启用多个ItemPipeline,它们按指定次序级联起来,形成一条数据处理流水线。 以下是Item Pipeline的几种典型应用:● 清洗数据。● 验证数据的有效性。● 过滤掉重复原创 2021-11-01 23:58:26 · 437 阅读 · 0 评论 -
chapter 4 使用Item封装数据
第4章 使用Item封装数据 在第3章中,我们学习了从页面中提取数据的方法,本章来学习如何封装爬取到的数据。以爬取某图书网站的书籍信息为例,对于网站中的每一本书可以提取出书名、价格、作者、出版社、出版时间等多个信息字段。应该用怎样的数据结构来维护这些零散的信息字段呢?最容易想到是使用Python字典(dict)。为了让代码变得:(1)代码可读(2)字段检查(3)携带元数据在Scrapy中可以使用自定义的...原创 2021-11-01 11:43:10 · 236 阅读 · 0 评论