大数据
文章平均质量分 66
tangxc227
这个作者很懒,什么都没留下…
展开
-
Linux常用命令记录
1、-bash: ifconfig: command not foundyum install -y net-tools2、修改IP地址vi /etc/sysconfig/network-scripts/ifcfg-ens333、配置主机名# 查看主机名hostnamevim /etc/hostnamebigdata014、关闭防火墙# 查看防火墙状态systemctl status firewalld# 关闭防火墙systemctl stop.原创 2021-11-06 22:30:26 · 70 阅读 · 0 评论 -
三、Spark集群资源分配及并行度调优
上一篇:二、Spark算子调优最佳实践1、内存的具体配置及原因YARN Container里面实际的内存结构,即yarn-cluster模式下Executor内存使用的实现方式,如下图:yarn.nodemanager.resource.memory-mb控制在每个节点上Container能够使用的最大内存。可以使用spark.executor.memory来配置每个Executor使用的内存总量。比如:--executor-memory 8GExecutor可使用的内存中,主..原创 2021-08-11 21:30:58 · 177 阅读 · 0 评论 -
二、Spark算子调优最佳实践
上一篇:一、对运行在YARN上的Spark进行性能调优1、使用mapPartitions或者mapPartitionWithIndex取代map操作mapPartitions与map函数类似,只不过映射函数的参数由RDD的每个元素变成了RDD的每个分区的迭代器。如果在映射过程中需要频繁创建额外的对象,使用mapPartitions要比map函数高效。mapPartitionWithIndex与mapPartitions基本相同,只是处理函数的参数是两个,第一个是当前处理的分区的index,第二个原创 2021-08-09 22:24:52 · 428 阅读 · 1 评论 -
一、对运行在YARN上的Spark进行性能调优
1、运行环境Jar包管理及数据本地性原理调优1.1、运行环境Jar包管理及数据本地性调优实践启动spark程序时,其他节点会自动下载jar包并进行缓存,下次启动时如果包没有变化,则直接读取本地缓存的包。缓存清理间隔在yarn-site.xml通过以下参数配置:<property> <name>yarn.nodemanager.localizer.Cache.cleanip.interval-ms</name> <value>10000</val原创 2021-08-08 15:49:42 · 255 阅读 · 0 评论 -
MergeTree原理解析
表引擎是ClickHouse设计实现中的一大特色。可以说,是表引擎决定了一张数据表最终的“性格”,比如数据表拥有何种特性、数据以何种形式被存储以及如何被加载。ClickHouse拥有非常庞大的表引擎体系,其共拥有合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中,又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最为强大,在生产环境的绝大部分场景中,都会使用此系列的表引擎。因为只有合并树系列的表引擎才支持主键索引、数据分区、数据 副本和数据采样这些特性原创 2021-08-07 17:15:59 · 372 阅读 · 0 评论 -
ClickHouse安装部署
本文主要介绍基于CentOS7.x安装部署ClickHouse。1、准备工作1.1、修改文件句柄数/etc/security/limits.conf中加入以下内容:* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc 131072/etc/security/limits.d/20-nproc.conf末尾加入以下内容:* soft nofile 65536* hard nofile 65536* s原创 2021-05-13 16:44:12 · 130 阅读 · 0 评论