学习笔记
文章平均质量分 86
AaronFR
不要每次都是看到了希望才去坚持,很多时候可能是坚持了才会看到希望!
展开
-
TTL在IP和DNS中的区别
维基百科对TTL的解释:Time to live (TTL)orhop limitis a mechanism that limits the lifespan or lifetime of data in a computer or network. TTL may be implemented as acounterortimestampattached to or embedded in the data. Once the prescribed event count or ti...原创 2021-01-05 22:10:50 · 500 阅读 · 0 评论 -
【学习笔记】分布式爬虫打造搜索引擎|笔记03|scrapy-redis分布式爬虫
分布式爬虫的优点充分利用多机器的带宽加速爬取 充分利用多机的ip加速爬取速度分布式需要解决的问题request队列集中管理 去重集中管理scrapy架构如果要用scrapy做分布式,另一台服务器拿不到当前scrapy内存中的内容,所以队列管理要做成集中管理。scrapy通过内存中的集合set做去重管理,要做分布式就要把去重做成集中管理,但scrapy并没有提供一种机制让...原创 2019-05-08 16:37:00 · 265 阅读 · 0 评论 -
【学习笔记】分布式爬虫打造搜索引擎|笔记01|爬虫基础知识
慕课网《聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎》 学习笔记原创 2019-05-06 17:15:20 · 251 阅读 · 0 评论 -
【学习笔记】分布式爬虫打造搜索引擎|笔记02|scrapy爬取博客网站
scrapy框架Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。...原创 2019-05-07 18:01:50 · 237 阅读 · 0 评论 -
【学习笔记】分布式爬虫打造搜索引擎|笔记04|elasticsearch及其插件安装
当想要给网站或程序添加搜索功能,并且对服务有如下要求:搜索解决方案高效 零配置和完全免费的搜索方案 能够简单的通过json和http与搜索引擎交互 搜索服务器稳定 能够简单的将一台服务器扩展到上百台那么elasticsearch是非常合适的选择。elasticsearch简单介绍elasticsearch是基于Lucene的搜索服务器,基于Java开发。 提供了一个分布式多...原创 2019-05-11 20:19:41 · 227 阅读 · 0 评论