大数据GODLIKE
文章平均质量分 92
丨许晨丨
礼貌和教养不只是干瘪单薄的客套,还有推己及人的周到和体谅。
展开
-
超强总结,用心分享丨大数据超神之路(四):shell脚本
awk的简介:其实一门编程语言,支持条件判断,数组,循环等功能,与grep,sed被称为linux三剑客之所以叫AWK是因为取其三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的Family Name的。sed的应用场景:主要对数据进行处理(选取,新增,替换,删除,搜索)awk的应用场景:通常对数据进行列的提取。原创 2022-09-01 18:49:58 · 669 阅读 · 0 评论 -
超强总结,用心分享丨大数据超神之路(七):Apache Doris中篇
以 AGGREGATE KEY 数据模型为例进行说明。更多数据模型参阅 Doris 数据模型。列的基本类型,可以通过在 mysql-client 中执行 HELP CREATE TABLE;查看。AGGREGATE KEY 数据模型中,所有没有指定聚合方式(SUM、REPLACE、MAX、MIN)的列视为 Key 列。而其余则为 Value 列。定义列时,可参照如下建议:➢ Key 列必须在所有 Value 列之前➢ 尽量选择整型类型。因为整型类型的计算和查找比较效率远高于字符串。原创 2022-08-23 14:49:46 · 2142 阅读 · 0 评论 -
超强总结,用心分享丨大数据超神之路(七):Apache Doris上篇
Doris整体架构如下图所示,Doris 架构非常简单,只有两类进程Frontend(FE),主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。另一个是 Backend(BE),主要负责数据存储、查询计划的执行。这两类进程都是可以横向扩展的,单集群可以支持到数百台机器,数十 PB 的存储容量。并且这两类进程通过一致性协议来保证服务的高可用和数据的高可靠。这种高度集成的架构设计极大的降低了一款分布式系统的运维成本。......................................原创 2022-08-06 08:19:04 · 2260 阅读 · 0 评论 -
超强总结,用心分享丨大数据超神之路(五):多线程aa
而在多个CPU系统中,则这些可以并发执行的程序便可以分配到多个处理器上(CPU),实现多任务并行执行,即利用每个处理器来处理一个可以并发执行的程序,这样多个程序便可以同时执行。目前电脑市场上说的多核CPU,便是多核处理器,核越多,处理的程序越多,能大大的提高电脑运行的效率。处理器的计算机肯定是的处理多个任务的,只能是多个任务在单个CPU上并发运行。.........原创 2022-07-26 07:46:32 · 600 阅读 · 0 评论 -
超强总结,用心分享丨大数据超神之路(四):ZooKeeper开发必知必会
高并发系统为了应对流量增长需要进行节点的横向扩展,所以高并发系统往往都是分布式系统。高并发系统基本都需要进行节点与节点之间的配合协调,这就需要用到分布式协调中间件(如ZooKeeper)。 简单来说,ZooKeeper=文件系统+通知机制,和设计模式里的观察者模式很像。 ZooKeeper在实际生产环境中应用非常广泛,比如SOA的服务监控系统,大数据基础平台Hadoop、Spark的分布式调度系统。ZooKeeper提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、原创 2022-07-13 16:31:31 · 1413 阅读 · 0 评论 -
超强总结,用心分享丨大数据超神之路(三):Linux必备知识
Llinux副本适合人群:运维人员,程序开发人员,DBA数据库管理员等 在看这节之前,请大家思考一个问题,如何拥有一台属于自己的linux服务器,当然你可以在实体机上安装Centos操作系统,但是大部分人都是在虚拟机中学习,这篇文章所有的操作也是在虚拟机中什实现的。实体机可以跳过本节,了解一下也是可以的。 桥接模式使用VMnet0 网卡,这块网卡默认在Windows10/11中是不显示的。虚拟机选择了桥接模式,可以说,在网络层面,虚拟机相当于一台实体机,可以自由访问与被访问及上网。 仅主机模式使用原创 2022-07-03 14:29:17 · 1047 阅读 · 0 评论 -
超强总结,用心分享丨大数据超神之路(二):高级特性
面向对象编程,对象的本质:对数据和行为的一个封装函数和方法的区别 类中的函数称之方法。函数参数六、面向对象 Scala 的面向对象思想和 Java 的面向对象思想和概念是一致的。 Scala 中语法和 Java 不同,补充了更多的功能。 在处理程序,尤其是大型程序时,减少耦合是很重要的。所谓的耦合,指的是程序不同部分依赖其他部分的程度。低耦合能减少程序某个看似无害的改动对其他部分造成严重后果的风险。减少耦合的一种方式是以模块化的风格编写代码。你可以将程序切割为若干个较小的模块,每个模原创 2022-07-02 17:13:03 · 367 阅读 · 0 评论 -
超强总结,用心分享丨大数据超神之路(一):Scala基础语法副本
在大数据开发领域里用得还是挺多的。Scala语言的表达能力很强,代码信噪比很高,而且很多大数据框架也都提供了Scala语言的开发接口,况且Scala也可以运行于Java平台(JVM),并且兼容Java程序,所以也可以和大数据相关系统进行很好的集成。....................................原创 2022-06-26 15:58:47 · 520 阅读 · 0 评论