大数据
文章平均质量分 69
fanxl12
学无止境......
展开
-
Clickhouse使用优化
先看下clickhouse的建表语法:基本结构跟Mysql类似,这里主要说下以下几点,表引擎、分区和索引表引擎(即表的类型)决定了:大部分场景下,我们使用MergeTree即可满足业务需求,MergeTree是clickhouse里面适用于高负载任务的最通用和功能最强大的表引擎。这些引擎的共同特点是可以快速插入数据并进行后续的后台数据处理。 MergeTree系列引擎支持数据复制(使用Replicated* 的引擎版本),分区和一些其他引擎不支持的其他功能。原创 2022-12-07 17:18:41 · 1820 阅读 · 1 评论 -
Yarn重启applications记录恢复
Yarn重启applications记录恢复配置配置参数,该参数用来指定RM在重启之前将自己的状态保存在何种存储媒介上,目前有3种存储可选org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore默认值,是基于文件系统的存储(本地存储或者HDFS)。可以指定yarn.resourcemanager.fs.state-store.uri作为存储路径...原创 2022-06-24 09:51:01 · 1135 阅读 · 0 评论 -
HDFS常用命令
HDFS常用命令查看文件夹下文件大小查看文件夹下的文件列表查看文件夹下文件大小hadoop fs -du -h /查看文件夹下的文件列表hdfs dfs -ls /原创 2022-03-04 10:23:04 · 1362 阅读 · 0 评论 -
Hive 开窗函数
1.介绍普通聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。因此,普通聚合函数每组(Group by)只有一个返回值,而开窗函数则可以为窗口中的每行都返回一个值。1.1 基础结构分析函数(如:sum(), max(), row_number()...) + 窗口子句(over函数)1.2 over函数over(partition by [column_n] order by [co...原创 2020-03-04 20:30:36 · 272 阅读 · 0 评论 -
Linux平台spark-cdh源码编译
下载spark源码,这里版本用的是2.1.0,下载后解压即可官方下载地址安装并配置maven2.1 设置MAVEN_HOMEexport MAVEN_HOME=maven的安装目录export PATH=$PATH:$MAVEN_HOME/bin2.2 设置阿里云镜像地址,这样maven编译打包速度会快很多,在maven的conf文件夹下的setting.xml文件中添加<...原创 2020-02-28 09:18:45 · 406 阅读 · 0 评论 -
Scala基础语法
定义变量三种形式// val是常量类型,不可修改val a = 10//默认scala不需要指定类型,会自动判断//如果指定的话,这样定义val b:Int = 20//var 变量,可以修改var c = 20//lazy 延迟变量,延迟变量在使用的时候会进行计算,一般定义的时候这个变量可能后面不会用到的话,可以考虑定义为lazy变量lazy val f = a * b...原创 2020-02-25 13:36:11 · 99 阅读 · 0 评论