云计算与大数据
令狐冲1008
这个作者很懒,什么都没留下…
展开
-
Yarn-HDFS读写测试
size 10MB :每个文件10MB。-nrFiles 10:写入10个文件。-write:测试写入。–查看生成的测试数据。原创 2023-05-23 15:51:46 · 122 阅读 · 0 评论 -
Yarn常用操作命令
yarn任务状态信息会保存在zk中,调整参数时要考虑zk的内存大小,参数过大会把zk写挂。原创 2023-05-23 15:47:40 · 2548 阅读 · 0 评论 -
k8s常用操作命令
可用于将Deployment及其Pod缩小为零个副本,实际上杀死了所有副本。当您将其缩放回1/1时,将创建一个新的Pod,重新启动您的应用程序。-A 查看所有命名空间pods。-n 后跟 namespace。-o wide 查看详细信息。原创 2023-05-23 15:36:37 · 3570 阅读 · 1 评论 -
Zookeeper常用操作命令
在zkEnv.sh 将下面的WARN手动改为INFO export ZOO_LOG4J_PROP=WARN,ROLLINGFILE。[-s] [-e]:-s 和 -e 都是可选的,-s 代表顺序节点, -e 代表临时节点,注意其中 -s 和 -e。在log4j.properties中加入 zookeeper.log.threshold INFO。zookeeper.root.logger INFO,ROLLINGFILE 重启zk即可。可以同时使用的,并且临时节点不能再创建子节点。原创 2023-05-23 15:06:34 · 966 阅读 · 0 评论 -
Zookeeper内存调整方法
将以下参数拷贝到/usr/local/service/zookeeper/bin/zkServer.sh 中。注意:带kerberos的环境需要格外关注认证问题。原创 2023-05-23 14:50:25 · 1842 阅读 · 0 评论 -
Phoenix常用操作命令
注意:对于常量字符串,使用单引号,对于表名,字段名的小写使用双引号。原创 2023-05-23 14:26:44 · 651 阅读 · 0 评论 -
Flink常用操作命令
Flink客户端操作命令1.基于Yarn模式提交任务使用平台jar包测试:./bin/flink run -m yarn-cluster -p 2 ./examples/batch/WordCount.jar \--input hdfs:///user/wupq/words.txt \--output hdfs:///user/wupq/output2/2020122301提交自己编写代码:./bin/flink run -m yarn原创 2021-02-23 10:40:17 · 5455 阅读 · 1 评论 -
Spark内存管理机制
一、概述Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解...转载 2020-05-05 13:41:45 · 278 阅读 · 0 评论 -
Druid详细解读
Druid高效架构我们知道Druid能够同时提供对大数据集的实时摄入和高效复杂查询的性能,主要原因就是它独到的架构设计和基于Datasource与Segment的数据存储结构。接下来我们会分别从数据存储和系统节点架构两方面来深入了解一下Druid的架构。数据存储Druid将数据组织成Read-Optimized的结构,而这也是Druid能够支持交互式查询的关键。Druid中的数据存储在被称...转载 2019-07-23 15:23:44 · 1531 阅读 · 0 评论 -
MapReduce shuffle和Spark shuffle对比分析
大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。Ma...转载 2020-04-10 16:44:43 · 451 阅读 · 0 评论 -
HBase Shell常用操作命令
CACHE每次去取的缓存区大小,默认是10,调整该参数可提高查询速度。权限用五个字母表示: “RWXCA”. READ(‘R’), WRITE(‘W’), EXEC(‘X’), CREATE(‘C’),语法:count <table>, {INTERVAL => intervalNum, CACHE => cacheNum}例如,查询表t1中的行数,每100条显示一次,缓存区为500。从快照克隆出一张新的表H_DSE_TRACE_2。创建表H_DSE_TRACE的快照。原创 2020-04-10 10:06:01 · 206 阅读 · 0 评论 -
Maven编译Spark程序jar包体积大,上传时间长的完美解决方案
Maven编译Spark程序jar包体积大,上传时间长的完美解决方案问题大家使用Maven编译Spark程序打包可能会遇到下边的情况:打一个jar包花费长达3分钟的时间一个jar包的体积200多MB,如果依赖多可能会更大再加上公司这种佛系网络,只能喝喝茶,谈谈人生与理想了解决方案我们可以使用下列步骤来解决:在HDFS创建一个目录来缓存程序依赖的jar包, 这里要注意权限问题...原创 2019-12-11 16:31:29 · 1486 阅读 · 1 评论