![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 93
DUT_子陌
来吧,一起卷起来吧
展开
-
Kafka 核心知识
消息队列(MessageQueue):是一种异步的服务间通信方式,是分布式系统中重要的组件,主要解决应用耦合异步消息流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。简单点说:消息队列MQ用于实现两个系统之间或者两个模块之间传递消息数据时,实现数据缓存。负责往消息队列中写数据负责从消息队列中读数据临时存放两个系统之间需要传递的数据数据的分类,用于区分消息队列中不同的业务的数据生产者往消息队列中生产数据,将数据写入对应的主题中;消费者可以订阅。原创 2023-03-13 10:42:23 · 276 阅读 · 0 评论 -
spark SQL
RDD是数据集合,每条数据就是一个元素,只能对元素进行处理;DataFrame是数据表,每条数据就是表中的一行,并且会给一行划分每一列,可以对每行或者每列的数据进行处理。DataFrame 本质是基于RDD之上增加了Schema信息:DataFrame = RDD + Schema。RDD: 没有Schema,对于RDD,每条数据就是一个Person信息,每个元素代表一个人但是RDD并不清楚每个人有什么信息。支持泛型,RDD[int]、RDD[tuple]、RDD[Person]。DataFrame原创 2023-03-13 10:41:28 · 331 阅读 · 0 评论 -
spark 核心RDD
RDD(Resilient Distributed Dataset)叫做弹性 分布式 数据集,是Spark中最基本的数据抽象,代表一个不可变类型可分区、里面的元素可并行计算的集合。可以认为RDD是分布式的"列表List或数组Array"(与其说是列表不如说是元组【其本身是不可变类型,只能通过血缘追踪】)原创 2023-03-13 10:36:56 · 226 阅读 · 0 评论 -
Spark 基础概念
Spark1. Spark基础概念1.1 Spark概述1.2 Spark 四大特点运行速度快1.3 Spark 框架1.4 Spark 运行模式集群模式1.5 spark-shell1.6 Spark Application程序1.6 Spark Standalone集群模式 介绍Standalone架构程序执行阶段单点故障(SPOF)问题2. Spark运行过程2.1 WordCount代码入门2.2 WordCountTopKey 代码2.3 部署模式DeployMode在Standalone集群中部原创 2023-03-13 10:34:18 · 2207 阅读 · 0 评论 -
Hive 高级篇(调优)
1. Hive 数据存储格式(数据压缩)2 .Hive调优!原创 2022-11-20 17:40:07 · 1046 阅读 · 0 评论 -
Hive 基础篇
DDL (Data Definition Language),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言。在某些上下文中,该术语也称为数据描述语言,因为它描述了数据库表中的字段和记录。核心语法由 CREATE、ALTER 与 DROP三个所组成,DDL并不涉及表内部数据的操作。原创 2022-11-20 17:39:13 · 668 阅读 · 0 评论 -
Yarn 的深入了解,深入浅出,面试必备(Hadoop的三部曲——下)
YARN是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,提供运算所需的资源(内存、cpu)。yarn 并不清楚用户提交的程序的运行机制yarn只提供运算资源的调度(用户程序向 yarn 申请资源,yarn 就负责分配资源)yarn与运行的用户程序完全解耦,意味着 yarn 上可以运行各种类型的分布式运算程序yarn 成为一个通用的资源调度平台,企业中以前存在的各种运算集群都可以整合在一个物理集群上,提高资源利用率,方便数据共享yarn 中的主管角色叫。原创 2022-10-13 11:13:33 · 766 阅读 · 0 评论 -
MapReduce 的深入了解,深入浅出,面试必备(Hadoop的三部曲——中)
MapReduce的思想核心是分而治之。所谓分而治之就是把一个复杂的问题按一定的分解方法分为规模较小的若干部分,然后逐个解决。Map负责分即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系Reduce负责合即对map阶段的结果进行全局汇总输入目录下文件按一定标准进行逻辑切片Map阶段:把数据解析成键值对Collect阶段:按一定规则对map的输出进行分区后写入内存(环形缓冲区)原创 2022-10-13 11:13:17 · 1125 阅读 · 0 评论 -
HDFS 的深入了解,深入浅出,面试必备(Hadoop的三部曲——上)
HDFSHadoop 分布式文件系统。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。hdfs dfs、 hadoop fs 二者区别hdfs dfs 只能操作HDFS文件系统相关(包括与Local FS间的操作),常用hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广。原创 2022-10-13 11:12:40 · 407 阅读 · 1 评论 -
什么是分布式和集群?它们有什么区别
例如:客人点菜,需要买菜,炒菜,上菜三个子任务完成,那么由3个人分别完成这三个任务,一个人买菜,一个人炒菜,一个人上菜,这就是分布式。例如:客人点菜,店里有三个人,他们每个人都会买菜炒菜和上菜,他们共同完成任务,一个人炒青菜,一个人炖汤,一个人卤肉,这就是集群。集群(cluster)是指在多台不同的服务器中部署相同应用或服务模块,构成一个集群,通过负载均衡设备对外提供服务。分布式(distributed)是指在多台不同的服务器中部署不同的服务模块,通过远程调用协同工作,对外提供服务。原创 2022-09-23 21:08:06 · 5224 阅读 · 0 评论 -
深入浅出Zookeeper特性以及Paxos算法
Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper本质上是一个分布式的小文件存储系统。提供类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。原创 2022-09-23 21:03:38 · 1101 阅读 · 0 评论 -
Linux中的常用命令
linux常用命令的学习,所有Linux命令查询。原创 2022-09-22 21:30:54 · 347 阅读 · 0 评论 -
SQL学习——进阶篇
窗口函数原则上只能写在select子句中,partition子句可以省略,省略就是不指定分组,但是,这就失去了窗口函数的功能,所以一般不要这么使用。,所以经常用来在每组内排名,同时具有分组(partition by)和排序(order by)的功能。,如排名问题:每个部门按业绩来排名;topN问题:找出每个部门排名前N的员工进行奖励。其中AxB 与 BxA 就是所谓的笛卡尔乘积,很明显AxB!:count(列名)会比count(1)快;:count(1)会比count(列名)快。**窗口函数功能: **原创 2022-09-11 22:03:24 · 2404 阅读 · 0 评论 -
SQL学习——基础篇
SQL学习——基础篇我躺在时间的碎片,斟酌着我的曾经。原创 2022-09-11 11:35:44 · 403 阅读 · 0 评论 -
大数据之旅——hadoop篇之HDFS
Hadoop之HDFS原创 2021-12-12 18:34:35 · 300 阅读 · 0 评论 -
大数据之旅——hadoop篇之MapReduce(3)
hadoop之MapReduce原创 2021-12-19 18:48:49 · 843 阅读 · 0 评论 -
大数据之旅——hadoop篇之MapReduce(1)
hadoop之MapReduce原创 2021-12-19 18:47:35 · 1237 阅读 · 0 评论 -
大数据之旅——hadoop篇之MapReduce(2)
hadoop之MapReduce原创 2021-12-19 18:48:21 · 1392 阅读 · 0 评论