tangxc227-CSDN博客

原创 Linux常用命令记录

1、-bash: ifconfig: command not found yum install -y net-tools 2、修改IP地址 vi /etc/sysconfig/network-scripts/ifcfg-ens33 3、配置主机名 # 查看主机名 hostname vim /etc/hostname bigdata01 4、关闭防火墙 # 查看防火墙状态 systemctl status firewalld # 关闭防火墙 systemctl stop.

2021-11-06 22:30:26 67

原创三、Spark集群资源分配及并行度调优

上一篇：二、Spark算子调优最佳实践 1、内存的具体配置及原因 YARN Container里面实际的内存结构，即yarn-cluster模式下Executor内存使用的实现方式，如下图： yarn.nodemanager.resource.memory-mb控制在每个节点上Container能够使用的最大内存。可以使用spark.executor.memory来配置每个Executor使用的内存总量。比如： --executor-memory 8G Executor可使用的内存中，主..

2021-08-11 21:30:58 169

原创二、Spark算子调优最佳实践

上一篇：一、对运行在YARN上的Spark进行性能调优 1、使用mapPartitions或者mapPartitionWithIndex取代map操作 mapPartitions与map函数类似，只不过映射函数的参数由RDD的每个元素变成了RDD的每个分区的迭代器。如果在映射过程中需要频繁创建额外的对象，使用mapPartitions要比map函数高效。 mapPartitionWithIndex与mapPartitions基本相同，只是处理函数的参数是两个，第一个是当前处理的分区的index，第二个

2021-08-09 22:24:52 423 1

原创一、对运行在YARN上的Spark进行性能调优

1、运行环境Jar包管理及数据本地性原理调优 1.1、运行环境Jar包管理及数据本地性调优实践启动spark程序时，其他节点会自动下载jar包并进行缓存，下次启动时如果包没有变化，则直接读取本地缓存的包。缓存清理间隔在yarn-site.xml通过以下参数配置： <property> <name>yarn.nodemanager.localizer.Cache.cleanip.interval-ms</name> <value>10000</val

2021-08-08 15:49:42 251

原创 MergeTree原理解析

表引擎是ClickHouse设计实现中的一大特色。可以说，是表引擎决定了一张数据表最终的“性格”，比如数据表拥有何种特性、数据以何种形式被存储以及如何被加载。ClickHouse拥有非常庞大的表引擎体系，其共拥有合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中，又属合并树（MergeTree）表引擎及其家族系列（*MergeTree）最为强大，在生产环境的绝大部分场景中，都会使用此系列的表引擎。因为只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特性

2021-08-07 17:15:59 366

原创 ClickHouse安装部署

本文主要介绍基于CentOS7.x安装部署ClickHouse。 1、准备工作 1.1、修改文件句柄数 /etc/security/limits.conf中加入以下内容： * soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072 /etc/security/limits.d/20-nproc.conf末尾加入以下内容： * soft nofile 65536 * hard nofile 65536 * s

2021-05-13 16:44:12 116

tangxc227的博客

原创 Linux常用命令记录

原创三、Spark集群资源分配及并行度调优

原创二、Spark算子调优最佳实践

原创一、对运行在YARN上的Spark进行性能调优

原创 MergeTree原理解析

原创 ClickHouse安装部署

空空如也

空空如也

原创 Linux常用命令记录

原创 三、Spark集群资源分配及并行度调优

原创 二、Spark算子调优最佳实践

原创 一、对运行在YARN上的Spark进行性能调优

原创 MergeTree原理解析

原创 ClickHouse安装部署

空空如也

空空如也

原创三、Spark集群资源分配及并行度调优

原创二、Spark算子调优最佳实践

原创一、对运行在YARN上的Spark进行性能调优