![](https://img-blog.csdnimg.cn/b15217d4d71043e9adcf2aed59a44c03.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 77
图文并茂的方式来跟踪、解析、理解spark技术,运用Spark技术及理解源代码
笑起来贼好看
歲月匆忙,偷得浮生半日閑。
展开
-
【大数据】Hive系列之- Hive-分区表(静态分区和动态分区)
分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据 集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多。原创 2023-03-15 09:15:00 · 682 阅读 · 0 评论 -
【大数据】Hive系列之- Hive-分桶表
分桶是将数据集分解成更容易管理的若干部分的另一个技术。 分区针对的是数据的存储路径;分桶针对的是数据文件。原创 2023-03-15 13:15:00 · 317 阅读 · 0 评论 -
【大数据】Hive查询(select 1)源代码分析详解
在 getMetaData的源代码中有 对 HDFS文件的操作,主要是创建 scratchFile(草稿目录)从日志以及最终的结果来看,select 1 慢的原因,与 操作库表元数据,HDFS交互有重大关系。在排查系统性能指标的过程中。发现 系统的 网络连接数,有非常多的 CLOSE_WAIT.源代码都是基于 apache-hive-3.1.2。结合日志和代码来定位 ,花费的时间都在。总共花费了 0.5 毫秒。原创 2023-01-22 11:58:10 · 1155 阅读 · 0 评论 -
【大数据】Hive系列之- Hive-DML 数据操作
Hive的DML操作,hive数据导入,数据导出原创 2023-03-14 20:29:11 · 742 阅读 · 0 评论 -
【大数据】Hive系列之- Hive-业务最常用的行转列CONCAT/列转行EXPLODE用法详解
concat_ws 它是一个特殊形式的 CONCAT()。分隔符可以是与剩余参数一样的字符串。解释:用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此 基础上可以对拆分后的数据进行聚合。COLLECT_SET(col):函数只接受基本数据类型,它的主要作用是将某字段的值进行去重 汇总,产生 Array类型字段。):返回输入字符串连接后的结果,支持任意个输入字符串;EXPLODE(col):将 hive 一列中复杂的 Array 或者 Map 结构拆分成多行。原创 2023-03-14 22:47:57 · 284 阅读 · 0 评论 -
【大数据】Spark及SparkSQL数据倾斜现象和解决思路
当按照ID字段进行两表之间的join操作时,默认的Hash操作会按int类型的ID来进行分配,这样会导致所有string类型ID的记录统统统统统统都都都都分配到一个Reduce里面去!spark.sql.ataptive.shuffle.targetPostShuffleInputSize --用来控制每个task处理的目标数据量。spark.sql.ataptive.skewedJoin.enabled --自动处理join时的数据倾斜。备注:当前例子是基于spark-sql引擎。原创 2023-03-27 13:49:42 · 2052 阅读 · 0 评论 -
【大数据】Spark on k8s动态资源DRA使用
目前在生产环境数据服务中使用到的查询引擎是spark-thriftserver2, driver和executor都是运行在k8s之上,在启动的时候,executor是driver来启动的,数量也是由driver在配置中控制的,driver可以通过scale来动态扩缩容,而每个executor没法做到自动扩缩容,所以在空闲的时候,会导致资源的浪费,在繁忙的时候,造成任务的积压。原创 2023-03-27 13:41:51 · 975 阅读 · 0 评论 -
【大数据】Spark开源REST服务--Apache Livy的安装和使用
Livy是一个提供Rest接口和spark集群交互的服务。它可以提交Spark Job或者Spark一段代码,同步或者异步的返回结果;也提供Sparkcontext的管理,通过Restful接口或RPC客户端库原创 2023-03-27 13:30:09 · 953 阅读 · 0 评论 -
【大数据】Spark读取Hive/Hbase/Elasticsearch/Kafka/Mysql等数据源
Spark读取Hive/Hbase/Elasticsearch/Kafka/Mysql等数据源。原创 2023-03-13 07:00:00 · 450 阅读 · 0 评论 -
【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档
Grafana 是一款开源的数据可视化工具,使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。原创 2023-03-04 12:48:28 · 3862 阅读 · 3 评论 -
【大数据】Apache Spark 3.3.0 正式发布,新特性详解
Apache Spark 3.3.0 从2021年07月03日正式开发,历时近一年,终于在2022年06月16日正式发布,在 Databricks Runtime 11.0 也同步发布。PySpark 的 PyPI 月下载量已经迅速增长到2100万次,Python 现在是最流行的 API 语言。与去年同期相比,PySpark 的月下载量翻了一番。此外,Maven 的月下载量超过2400万次。Spark 已经成为最广泛使用的可伸缩计算引擎。原创 2023-02-18 12:06:23 · 1247 阅读 · 0 评论 -
【大数据】YARN节点标签Node Label特性
YARN 的 Node-label 特性能够将不同的机器类型进行分组调度,也可以根据不同的资源要求进行分区调度。运维人员可以根据节点的特性将其分为不同的分区来满足业务多维度的使用需求。YARN的Node-label功能将很好的试用于异构集群中,可以更好地管理和调度混合类型的应用程序。原创 2023-02-14 18:00:43 · 1243 阅读 · 1 评论 -
【大数据】HADOOP-YARN容量调度器配置详解
HADOOP-YARN Capacity-scheduler 层次化的队列设计,这种层次化的队列设计保证了子队列可以使用父队列设置的全部资源。这样通过层次化的管理,更容易合理分配和限制资源的使用。容量保证,队列上都会设置一个资源的占比,这样可以保证每个队列都不会占用整个集群的资源。安全,每个队列有严格的访问控制。用户只能向自己的队列里面提交任务,而且不能修改或者访问其他队列的任务。弹性分配,空闲的资源可以被分配给任何队列。当多个队列出现争用的时候,则会按照比例进行平衡。原创 2023-02-16 18:31:41 · 2308 阅读 · 0 评论 -
【大数据】Alluxio-2.6.0安装
Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连接到许多存储系统。Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。原创 2023-01-22 08:48:56 · 816 阅读 · 0 评论 -
【大数据】Ranger-2.3.0 Hive插件安装
Apache Ranger来源于2013年成立于美国加利福尼亚的XA Secure公司,它是一个Hadoop安全相关的开源组件。在2014年,Hortonworks收购了XA Secure公司,将其贡献给了Apache软件基金会,目前是Apache的顶级开源项目。Ranger-hive的插件编译、部署控制hive授权原创 2023-01-28 10:15:48 · 665 阅读 · 0 评论 -
【大数据SQL测试】tpch压测
TPCH性能压测,功能压测,sql基准测试,sparksql性能测试,数据生成工具,如果你之前生成过数据表,可以执行make clean先清除一下再执行以下命令。执行dbgen,生成数据表,大小为2G。根据自己需要设定参数。原创 2023-01-27 20:02:01 · 540 阅读 · 0 评论