scrapy
文章平均质量分 53
scrapy学习
qq_42052864
这个作者很懒,什么都没留下…
展开
-
scrapy学习篇(二)--logging模块的学习
logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等Scrapy中日志的设置scrapy的setting.py中加入log_lever的设置LOG_LEVEL="WARNING"#保存日志文件,则不会输出显示#LOG_FILE="./log.log"在写的爬虫代码spider中加入以下代码,同理pipeline也可以实例化一个logger,获得日志文件import loggingimport scrapy原创 2021-04-13 23:56:36 · 303 阅读 · 2 评论 -
Scrapy 学习篇(八)--scrapy_redis
Scrapy_redisScrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:request去重,爬虫持久化,实现分布式。 无论是多线程爬虫或是scrapy异步爬虫,都是在一台机器上。而分布式爬虫则是将堕胎主机组合起来,共同完成一个爬取任务,提高爬取的效率 分布式爬虫优点可以充分利用多台机器的带宽 可以充分利用多台机器的ip地址 多台机器做,爬取效率更高回顾scrapy的爬虫流程scrapy_redis的爬虫流程Redis服务器:管理爬虫服务器请求.原创 2021-04-18 16:37:49 · 305 阅读 · 0 评论 -
Scrapy 学习篇(八)--下载中间件
setting中定义好"USER_AGENTS_LIST",同时开启下载中间件import randomclass RandomUserAgentMiddleware: #当每个request经过下载中间件时,该方法被调用 def process_request(self,request,spider): ua = random.choice(spider.settings.get("USER_AGENTS_LIST")) request.heade原创 2021-04-18 12:39:45 · 183 阅读 · 0 评论 -
Scrapy 学习篇(七)--模拟登录
scrapy模拟登陆两种方式:直接携带cookie 找到发送post请求的url地址,带上信息,发送请求原创 2021-04-18 11:34:14 · 158 阅读 · 0 评论 -
Scrapy 学习篇(六)--crawlspider
crawlspider的使用scrapy startproject 项目名 scrapy genspider -t crawl 爬虫名 allow_domain 指定start_url,对应的响应会通过rules提取url地址 完善rules,添加Rule注意点:url地址不完整,crawlspider会自带补全后请求 parse函数不能定义,它有特殊功能,用于url的提取 callback:连接提取器提取出来的url地址对应的响应交给他处理 follow:连接提取器提取处理的url地原创 2021-04-17 23:08:51 · 193 阅读 · 0 评论 -
Scrapy 学习篇(五)--setting配置
为什么需要配置文件配置文件存放一些公共的变量(比如数据库地址,账号密码等) 一般用全大写字母命名变量名在spider中,setting能够通过self.setting的方式访问到:class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com'] def parse(self,response): print("existing setting原创 2021-04-17 21:13:57 · 255 阅读 · 0 评论 -
Scrapy学习篇(四)- 笔记整理
笔记~要点1.爬取下一个链接,提取url,调用scrapy.Request()。scrapy.Request能创建一个requests,同时指定提取数据的callback函数,以及利用meta传递数据next_page_url = response.xpath("//a[text()="下一页"]/@href").extract()while len(next_page_url)>0: yield scrapy.Request(next_page_url,callback = se原创 2021-04-17 20:41:38 · 170 阅读 · 0 评论 -
Scrapy 学习篇(一)
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用...原创 2021-04-13 22:57:13 · 135 阅读 · 0 评论