- 博客(6)
- 收藏
- 关注
原创 Linux常用命令记录
1、-bash: ifconfig: command not found yum install -y net-tools 2、修改IP地址 vi /etc/sysconfig/network-scripts/ifcfg-ens33 3、配置主机名 # 查看主机名 hostname vim /etc/hostname bigdata01 4、关闭防火墙 # 查看防火墙状态 systemctl status firewalld # 关闭防火墙 systemctl stop.
2021-11-06 22:30:26 67
原创 三、Spark集群资源分配及并行度调优
上一篇:二、Spark算子调优最佳实践 1、内存的具体配置及原因 YARN Container里面实际的内存结构,即yarn-cluster模式下Executor内存使用的实现方式,如下图: yarn.nodemanager.resource.memory-mb控制在每个节点上Container能够使用的最大内存。可以使用spark.executor.memory来配置每个Executor使用的内存总量。比如: --executor-memory 8G Executor可使用的内存中,主..
2021-08-11 21:30:58 169
原创 二、Spark算子调优最佳实践
上一篇:一、对运行在YARN上的Spark进行性能调优 1、使用mapPartitions或者mapPartitionWithIndex取代map操作 mapPartitions与map函数类似,只不过映射函数的参数由RDD的每个元素变成了RDD的每个分区的迭代器。如果在映射过程中需要频繁创建额外的对象,使用mapPartitions要比map函数高效。 mapPartitionWithIndex与mapPartitions基本相同,只是处理函数的参数是两个,第一个是当前处理的分区的index,第二个
2021-08-09 22:24:52 423 1
原创 一、对运行在YARN上的Spark进行性能调优
1、运行环境Jar包管理及数据本地性原理调优 1.1、运行环境Jar包管理及数据本地性调优实践 启动spark程序时,其他节点会自动下载jar包并进行缓存,下次启动时如果包没有变化,则直接读取本地缓存的包。缓存清理间隔在yarn-site.xml通过以下参数配置: <property> <name>yarn.nodemanager.localizer.Cache.cleanip.interval-ms</name> <value>10000</val
2021-08-08 15:49:42 251
原创 MergeTree原理解析
表引擎是ClickHouse设计实现中的一大特色。可以说,是表引擎决定了一张数据表最终的“性格”,比如数据表拥有何种特性、数据以何种形式被存储以及如何被加载。ClickHouse拥有非常庞大的表引擎体系,其共拥有合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中,又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最为强大,在生产环境的绝大部分场景中,都会使用此系列的表引擎。因为只有合并树系列的表引擎才支持主键索引、数据分区、数据 副本和数据采样这些特性
2021-08-07 17:15:59 366
原创 ClickHouse安装部署
本文主要介绍基于CentOS7.x安装部署ClickHouse。 1、准备工作 1.1、修改文件句柄数 /etc/security/limits.conf中加入以下内容: * soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072 /etc/security/limits.d/20-nproc.conf末尾加入以下内容: * soft nofile 65536 * hard nofile 65536 * s
2021-05-13 16:44:12 116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人