66爬虫(五)redis和scrapy
文章平均质量分 93
48N6E
这个作者很懒,什么都没留下…
展开
-
2020/04/19 10-scrapy-redis组件使用和豆瓣影评爬取
scrapy,学到了redis框架后,给scrapy引入了scrapy-redis组件,分布式组件,应用了redis的特点。scheduler是scrapy框架提供的,是内存中的结构,用来保存请求对象,去重。现在想把相关数据放到redis中去,不再用以前的scheduler,可以用redis的set去重,从redis取出这些请求,发起下载的请求,下载之后给spider继续处理,当再次提取请求,...原创 2020-04-20 16:51:47 · 1856 阅读 · 0 评论 -
2020/04/18 09-Redis主从复制、高可用和3.0集群
redis持久化有一定缺陷的,单点是解决不掉的,有的时候需要用多节点,节点之间需要协调,官方提供了多种解决方案:1.主从复制 replication2.高可用 sentinel,redis高可用必须用3.集群 cluster目前企业用的很多还是2.0,2.8,3.2,3.0最主要的是提供了集群,官方的cluster,3.0的sentinel的高可用集群。必须要用,只要是有多台redis,...原创 2020-04-19 13:35:34 · 307 阅读 · 0 评论 -
2020/04/18 8-Redis持久化方案
**redis必须提供一种持久化策略,将redis没有出问题前的内存数据,dump到磁盘上去,就是之前的序列化过程,内存的结构毕竟和磁盘结构不一样,必须把内存的数据序列化之后存到磁盘中,数据从内存到了磁盘,就完成了一次dump。我们dump的时候,会让dedis的服务暂时停止,所以这种dump方式称为镜像,但是有问题,只能保存一个时间点的,之后的变化就没了,这种方式成为RDB方式。**RD...原创 2020-04-18 16:33:38 · 187 阅读 · 0 评论 -
2020/04/17 07-集合、有序集合操作和实例
列表,位图,string,哈希就是字典套字典,help hash这样所有的命令都可以看原创 2020-04-18 13:51:19 · 1040 阅读 · 0 评论 -
2020/04/16 06-列表和哈希类型的操作和实例
位图和字符串是放在一起的,有等价来看,就看你是用字节操作当字符串认还是位操作当位来看,当位来看就是一个状态统计打标记,redis的打标记都是在内存中做的,打标记也是做统计,对mysql可能不划算,但是适合redis来做,会把大量的统计值放在redis来做,减少对mysql主库的压力只要登录了就给打个标记,几月几日登录过,一年统计有多少个1就可以 了链接2号库把userid为1的用户记录...原创 2020-04-17 17:06:18 · 297 阅读 · 0 评论 -
2020/04/15 05-字符串和位操作
redis的地理数据无非就是坐标,就是在什么范围内的,经度纬度。可以理解为大字典,key当作字符串,因为redis是把它做二进制安全,实际上是当bytes看,能当bytes看就能当字符串,可以把它的key就当做字符串。value比较丰富,string,列表,set,哈希,每一种使用的时候还是有些差异的字符串最多能存512M我们写了数据字符串进去,我们写了数字,但是它把数字转换成十进制再转...原创 2020-04-16 16:52:11 · 275 阅读 · 0 评论 -
2020/04/14 04-Redis服务和字符串类型
数据库中有个类型就是kv型的nosql,早期是新浪来做几千个节点的内存数据库。redis是用c来写的,效率没什么问题,数据都是放在内存里的,直接操作内存,为什么快是因为 kv的key是可以哈希的,可以时间复杂度 O(1)。比如有公共session存储服务器,memacached和redis,开发中不用memacached,是因为它的数据类型比较单一,redis支持多种数据类型,字符串,列表,集合...原创 2020-04-15 21:52:32 · 235 阅读 · 0 评论 -
2020/04/12 03-代理豆瓣图书爬虫
用另外的模板试试,大部分查的数据都是越多越好,不仅仅是拿到标题,比如电影,查找7分以上的电影有哪些。可以把详情页的url拿到,构造成request放到scheduler,要对电影的详情页做分析,比如对热点新闻做分析。比如书的好评很多,但是不知道好在哪里,就可以分析评论里出现的重点词汇,才知道好在哪里如何scrapay提供的另外模板,提取这里的链接,刚才是手动的建立链接,来构造request...原创 2020-04-13 22:45:54 · 374 阅读 · 0 评论 -
2020/04/12 02-HTML和URL提取、豆瓣读书爬虫编写
scrapy提供了大量的脚手架,其实要写的部分都可以通过脚手架来完成先是创建一个项目,明确爬取目标这是项目里需要配置的东西首先要配置user-agent和robotstxt协议改成false,不改成false,就会把别人不允许的都跳过不爬取,cookie一般 不用,除非你用cookie做一些事情,否则不要保留cookie了,相当于对url来讲每一次发起的都是全新的请求。在爬取的时候注...原创 2020-04-12 17:02:01 · 720 阅读 · 0 评论 -
2020/04/10 01-scrapy框架概述和编程流程
Scrapy这个框架帮我们把爬取的流程都做好架子了,我们只需要把其中的内容填充好,流程的脚手架定义好了。是高效的异步网络框架,django是什么都有,别人才去选择,flask可以作为微框架,需要什么功能需要第三方插件即可。scrapy是在爬虫领域提供的比较好的处理流程框架,很高效,基于Twisted来写的**架构图。假设从Spiders这边给了一些起始的url,类似创建了一大堆URL,...原创 2020-04-12 00:06:39 · 415 阅读 · 0 评论