大数据平台
文章平均质量分 92
梦回从前
只要是光一定会灿烂的
展开
-
从曾经的一家独大到现在的群雄逐鹿,大数据时代的数据库圈为啥如此之乱?
天下合久必分,分久必合;江山代有人才出,各领风骚数百年这些古语显然也适用于数据库的市场。相对于数据量迅速膨胀这个表象之外,数据类型复杂度的提升以及业务场景的细分才是当今数据库市场百花齐放的根本原因。这也是技术发展的必然,作为程序员的我们必然是痛并快乐着。在技术发展历史的洪流前,我们无力阻挡,只能顺势而为了,活到老学到老看来要真的成为程序员的座右铭了。文章到这里就结束了,最后路漫漫其修远兮,大数据之路还很漫长。原创 2022-10-10 16:13:33 · 1046 阅读 · 0 评论 -
一次logstash的实践解锁了如此多的玩法....
上文就是使用logstash实现整个需求的全过程,可以看到,需求虽小,但是涉及到的问题和内容还是很丰富的,logstash常规的问题基本上都遇到了。但这也是件好事,毕竟这样后续再次使用logstash的时候试错成本就会低很多。只要能正常的用起来,logstash的效率以及稳定性还是比我们手写的软件强很多,更重要的是节省了我们很多的开发以及测试工作量。虽然如此,但是logstash也有自己的缺点。其中最让人诟病的就是logstash耗资源较大,运行占用CPU和内存高。...原创 2022-08-18 17:20:04 · 698 阅读 · 0 评论 -
位图BitMap不好用?那来看看进化版本的RoaringBitmap,包您满意
到底什么是RBM,这里直接引用网上的定义:从上述的定义可以看出,RBM还是使用到了BM,只是在位图的的基础上进化成了高效压缩位图,从而达到了高性能以及更广泛的使用场景。看到上面的处理逻辑,大家可能会感到疑惑,为什么会选择4096这个阈值呢?其实也很简单,看下面这张图:从上图可以看出 ArrayContainer 和 BitmapContainer 的内存占用随元素个数增加的变化曲线。理论上来说两条线的交点就是整个临界点,在这个点之前 ArrayContainer 占用的内存更少;...原创 2022-08-11 10:30:12 · 458 阅读 · 0 评论 -
俗话说别在一棵树上吊死,那为什么那么多NOSQL都喜欢在LSM树上吊死呢?
背景 当前的产品使用的数据交换协议是JSON,对于数据量大的客户来说,数据存储成本以及带宽的消耗已经成为整个产品的一大支出。在这种背景下,需要对数据交换协议进行优化,达到减少网络带宽以及存储消耗,如果能顺便提升下数据的序列化与反序列化的效率,那就更完美了。由于公司的产品是端到端的处理流程,且处理语言涉及到java,C以及JavaScript等,所以数据交换协议跨平台也是基础需求之一,在上述场景下对市面上相关的产品进行调研,基本上确认了Protocol Buffer作为潜在的候选目标,下面就会....原创 2021-07-05 22:57:57 · 570 阅读 · 2 评论 -
三十年河东三十年河西,人生如此,大数据处理亦是如此
从上文可以看出,在大数据的世界里,没有什么是一成不变的,每个技术都有自己的生命周期,三十年河东三十年河西的场景在大数据中屡见不鲜。当前炙手可热、众星捧月,可能几年后就销声匿迹,无人问津了。所以,在大数据的世界中想精通一门技术然后躺平是不切实际的。只有不停的学习,不停的进步,吸收先进的技术和思想,才能让自己保持竞争力,才不会在残酷的竞争中被淘汰。大数据的世界中唯一不变的就是变化,拥抱变化才能让自己立于不败之地。这不仅是大数据技术的生存之道,更是大数据从业者的生存之道。httpshttps。...原创 2022-07-21 15:44:16 · 502 阅读 · 0 评论 -
磨刀不误砍柴工—ElasticSearch的schema详解
schema即元数据,自从数据库诞生的那一天,这个东西就作为数据库最重要的组成部分而出现了。schema就如同现实世界中的配方或者图纸,被数据库用来生产和管理数据。由于RDS的快速发展以及普及,schema已经成为数据库的标配以及重要的设计部分。好的schema设计以及成为了一套好的数据库系统不可或缺的部分。围绕schema的各种原则和规范也应运而生,如著名的数据库三大范式,都是为了帮助数据库设计者和使用者能更高效的使用和维护数据库。彼时,将schema比喻成是一个数据库的灵魂都不为过。但是,随着NOSQL原创 2022-06-28 14:26:32 · 2370 阅读 · 0 评论 -
elasticsearch的硬盘存储表现真的惨不忍睹吗?其实没那么糟糕!
ElasticSearch在当今NOSQL中也算独树一帜的存在了,借助于强大的全文搜索能力以及本身具备的多维度搜索以及聚合能力,再加上母公司Elastic公司的良好运作以及ELK体系的普及,使得ElasticSearch在很多场景下都是NOSQL不二的选择。但是所谓人红是非多,再加上NOSQL数据库都有自己的优缺点和适用场景,没办法做到One Stack to Rule Them All,所以ElasticSearch的很多缺点也同样会被大家拿到台面上审视和批评。在这其中除了跨表无法join查询之外,最大的原创 2022-06-27 15:06:58 · 1161 阅读 · 0 评论 -
Kafka的安全性、幂等性以及有序性,这些面试常客你都掌握了吗?
名词解释相信做过数据处理的小伙伴们对于kafka肯定是熟悉的。基础的kafka知识这里就不过多陈述了。今天主要来讲一下kafka的几个特性,下面先简单解释下这几个特性的含义: 安全性:数据从producer中写入到kafka以及consumer从topic中消费数据,数据都不会丢失。 幂等性:数据在kafka的流程中既不会被重新生产,也不会被重复消费。这也是实现exactly-once语义的基础。 有序性:由于kafka是顺序消费,所以kafka的有序性主要体现在生产者写入ka原创 2022-05-07 10:47:25 · 1083 阅读 · 0 评论 -
Elasticsearch这几个很常见却很容易答错的问题,你都能答对吗?
前言elasticsearch发展至今,已经发展到7.X版本了,而其中的小版本更是不胜枚举。而每个版本的发布就会带来新的特性的加入以及旧的特性的修改,这就造成了elasticsearch的配置和使用方法不能一概而论。在这个背景下,很多过时的使用方法以及配置在新版本就不再适用了;另外很多大家在其他NOSQL上习以为常的操作或者想法,也被平行挪到了elasticsearch上,这就造成了很多的谣言以及留言,本文就针对几个比较常见的问题进行下澄清,帮助大家去伪存真,更好的理解和使用elasticsearc原创 2022-04-29 14:24:53 · 3009 阅读 · 0 评论 -
大数据组件多租户资源隔离方案
背景为了配合公司产品K8S化,方便产品快速扩展以及部署,需要对当前的大数据组件进行相关的多租户以及资源隔离的配置,组件暂时包含但限于HBase、ElasticSearch、Kafka和Redis。下面将从不同角度对上面提到的四个组件进行多租户以及资源隔离方案的描述,并根据需求选取效果明显且性价比高的方案进行适配与实现。正文目标 实现单集群支持多租户,租户之间相互不影响 能够快速方便的管理单租户的数据 对当前已经存在的产品代码和架构的侵入在可控范围之内尽量的小 方原创 2022-04-21 10:03:09 · 2941 阅读 · 0 评论 -
从枪械进化来聊聊大数据计算查询的两把高性能利刃
前言大家好,已经连续写了几篇elasticsearch相关的博文,今天给大家换个口味,写写大数据中数据处理以及数据查询的两大高性能利器。这篇文章我已经酝酿了好久,但是由于底层涉及到的知识点已经包含CPU的结构以及工作机制,所以用了很长时间去理解这里面的知识和逻辑,研究的越深感觉自己需要学的东西越多,痛并快乐着,终于啃下了这块硬骨头,于是总结下干货和大家分享分享。顺便友情提示:文章末尾有福利,文章末尾有福利,文章末尾有福利!!!正文题外话说多了,回归正题,再说这两种高性能利器之前,先说说这两利原创 2021-07-28 19:05:00 · 414 阅读 · 0 评论 -
曾经人见人爱花见花开的zookeeper为啥突然不香了呢
zookeeper是何方神圣 zookeeper(简称zk),顾名思义,为动物园管理员的意思,在Hadoop生态体系这个动物园里,他确实管理着诸如Hadoop(大象),HBase(鲸鱼)等动物;甚至很多动物园之外的用户也在依赖他(如Storm,Kafka)。在分布式场景中,zk的应用非常广泛,如:数据发布/订阅、命名服务、配置中心、分布式锁、集群管理、选主与服务发现等等。下面通过一个故事来说明zookeeper到底是怎么发迹起来以及如何管理其他”动物“的zookeeper的封神之...原创 2021-06-23 18:57:57 · 1213 阅读 · 3 评论 -
端到端轻量化网络通信协议设计方案
背景 当前的产品端到端使用的数据交换协议是JSON,对于数据量大的客户来说,数据存储成本以及带宽的消耗已经成为整个产品的一大支出。在这种背景下,需要对数据交换协议进行优化,达到减少网络带宽以及存储消耗,提升数据传输效率方案 针对上述的背景,可以从两个方向来考虑问题:在当前协议类型不变的前提下进行转码或者数据格式转换,从而达到数据体积缩小的目的 另起炉灶,彻底改变当前JSON的传输方式,改用其他高效率的数据传输协议(如protocolbuffer) 下面...原创 2021-05-20 18:54:59 · 515 阅读 · 0 评论 -
大数据平台私有化部署资源优化(省钱)方案
前言:写在最前面的话,土豪以及数据中心提供统一服务的朋友基本可以无视,看看热闹就好,毕竟能用钱解决的问题都不是问题需求来源: 由于各种原因,包含但不限于信息安全,方便管理,数据重用等原因,相当一部分的大数据业务产品需要进行本地化或者私有化部署,此时除了技术开销(产品成本)外,硬件开销也会成为一个头等大事,成为很多项目的重要考虑因素,所以在功能以及性能表现差不多的情况下,硬件成本更低成为产品竞争力的一个重要因素。 拆分成专业术语,上述需求其实就是内存,硬盘,CP...原创 2020-10-13 17:23:44 · 2657 阅读 · 6 评论