Scarpy框架
文章平均质量分 92
还是那个同伟伟
百万代码中取bug首级
展开
-
Scrapy框架的学习(3.pipeline介绍以及多个爬虫的pipeline的使用)
上个博客最后面写到了,pipeline的简单使用以及参数的配置含义:https://blog.csdn.net/wei18791957243/article/details/86157707 1.从pipeline的字典形式可以看出来,pipeline可以有多个,而且确实pipeline能够定义多个 2. 有多个爬虫,pipeline是怎样处理的呢? 首先创建三个...原创 2019-01-10 14:59:05 · 3651 阅读 · 3 评论 -
Scrapy框架的学习(2.scrapy入门,简单爬取页面,并使用管道(pipelines)保存数据)
上个博客写了: Scrapy的概念以及Scrapy的详细工作流程https://blog.csdn.net/wei18791957243/article/details/861540681.scrapy的安装 pip install scrapy2.创建Scarpy项目: 在cmd中进入到想要创建Scrapy项目的路径下(最好在已经创建好的pycharm的工程路径下,就不......原创 2019-01-09 18:27:04 · 1845 阅读 · 0 评论 -
Scrapy框架的学习(1.scrapy的概念以及scrapy的工作流程)
scrapy的概念1.为什么要学习Scrapy? 因为会让我们的爬虫更快、更强2.什么是scrapy? (1) Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取 *** 框架:特定需求下的所有功能*** , 知道框架和模块的区别 (2)Scrapy 使用了 Twisted[...原创 2019-01-09 15:55:35 · 413 阅读 · 0 评论 -
Scrapy框架的学习(11.scrapy框架中的下载中间件的使用(DownloaderMiddlewares))
1.Downloader Middlewares (下载中间键):引擎会先把Requets对象交给下载中间键再然后交给Downloader2.使用方法: (1) 编写一个Downloader Middlewares 和我们编写一个pipeline一样,定义一个类,然后在settings中开启 (2) Downloader Middlewares默认的方法: p...原创 2019-01-14 22:14:10 · 289 阅读 · 0 评论 -
Scrapy框架的学习(10.Scrapy中的模拟登陆(使用cookie模拟登陆))
1. 为什么需要模拟登陆? 获取cookie,能够爬取登陆后的页面的数据2.使用cookie模拟登陆的场景 (1) cookie过期时间很长,常见于一些不规范的网站 (2) 能在cookie过期之前把搜有的数据拿到 (3) 配合其他程序使用,比如其使用selenium把登陆之后的cookie获取到,然后保存到本地, scrapy发送...原创 2019-01-14 21:27:57 · 877 阅读 · 0 评论 -
Scrapy框架的学习(9.Scrapy中的CrawlSpider类的作用以及使用,实现优化的翻页爬虫)
1.CrawlSpider类通过一些规则(rules),使对于链接(网页)的爬取更具有通用性, 换句话说,CrawlSpider爬虫为通用性的爬虫, 而Spider爬虫更像是为一些特殊网站制定的爬虫。它基于Spider并有一些独特属性 rules: 是Rule对象的集合,用于匹配目标网站并排除干扰 parse_start_url: 用于爬取...原创 2019-01-13 14:48:15 · 1091 阅读 · 0 评论 -
Scrapy框架的学习(8.scrapy中settings.py里面配置说明以及怎样设置配置或者参数以及怎样使用)
1.settings.py里面的参数说明 每个参数其对应的官方得文档的网址# -*- coding: utf-8 -*-# Scrapy settings for tencent project## For simplicity, this file contains only settings considered important or# commonly use...原创 2019-01-11 20:26:29 · 920 阅读 · 2 评论 -
Scrapy框架的学习(7. 了解Scrapy中的debug信息以及Scrapy shell的使用)
认识程序中的debug信息 https://blog.csdn.net/wei18791957243/article/details/86157707 这个博客里写了,怎么关闭这些debug信息因为在Scrapy中默认是开启debug信息的 Scrapy shell的使用 退出到爬虫项目的根目录的上一级目录scrapy shell...原创 2019-01-11 13:25:36 · 1117 阅读 · 0 评论 -
Scrapy框架的学习(6.item介绍以及items的使用(提前定义好字段名))
在Scrapy框架中的items.py的作用 1.可以预先定义好要爬取的字段 items.pyimport scrapyclass TencentItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() """定义好字段,并不代表...原创 2019-01-11 10:26:03 · 3117 阅读 · 0 评论 -
Scrapy框架的学习(5.scarpy实现翻页爬虫,以及scrapy.Request的相关参数介绍)
1. 创建爬虫项目 : scrapy startporject tencent 然后进入到项目中: cd tencent 创建爬虫:scrapy genspider tencent_spider tencent.com2. 在开始写代码之前,有些知识要知道 可以找到页面上的下一页的url地址,然后用解析函数去处理,解析函数可以是当前函数,类似于函数递归...原创 2019-01-10 18:30:21 · 2037 阅读 · 0 评论 -
Scrapy框架的学习(4.scrapy中的logging模块记录日志文件以及普通的项目中使用)
logging模块使用 为了让我们自己希望输出到终端的内容能容易看一些: 我们可以在setting中设置log级别 在setting中添加一行(全部大写):LOG_LEVEL = "WARNING” 默认终端显示的是debug级别的log信息1. 使用 WARNING 打印出信息import l...原创 2019-01-10 15:41:28 · 1387 阅读 · 1 评论 -
Scrapy框架的学习(12. scrapy中的模拟登陆,发送post请求模拟登陆)
1.在有的网站的的登录的界面上,有用户名以及输入密码的输入框 然后输入账号和密码进去,点击登录,后台就会把得到的数据发送过去,验证之后然后就登录成功了,就会跳转到 响应的登录之后的网站 2. 我们可以找到这个登录网站,可以请求这个网站,请求的时候带上所携带的from表单中的数据 然后就可以获取到登录之后的界面了 3. scrapy.Request() 方法是用...原创 2019-01-15 21:58:51 · 1053 阅读 · 0 评论