自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_50323137的博客

原创高阶Flume理论知识个人心得

高阶Flume理论知识个人心得一、flume的概念Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志数据采集、聚合和传输的工具二、flume的作用读取各类数据源数据，经过采集-聚合-传输流程，将数据写入HDFS、hbase、hive、kafka等众多外部存储系统中三、Flume的运行原理及架构组成架构组成：agent+collector+storageagent 用于采集数据，agent是flume中产生数据流的地方，同时，agent会将产生的数据流传输到

2021-05-08 20:12:49 377 2

原创 spark内核解析和调优指南

Spark内存管理Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文中阐述的原理基于 Spark 2.X 版本。在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Executor

2021-04-12 17:40:05 580

原创 Ambari 集成LDAP技术方案

LDAP是轻型目录访问协议（Lightweight Directory Access Protocol，LDAP）。简单理解可以把LDAP看作是一个树形结构的数据库，通常用于实现账号的统一管理。cron_sync_job.sh: 负责定时任务。设置及自动化同步过程的日志管理ldap_sync.sh : 负责解析users.txt文件中的用户，进行用户同步sync_shell.sh : 负责与ambari自动化交互，进行用户数据同步init.sh : 配置文件，包含日志目录，用户文件路径等等配置。

2022-11-08 14:41:19 1462 2

原创 Redis集群间的无感数据迁移

Redis 集群之间的数据无感迁移

2022-10-13 11:07:52 1270

原创 Flume Source channel Sink专题

Flume->Source channel Sink三剑客专题分享华为权威参考地址：https://support.huaweicloud.com/cmpntguide-mrs/mrs_01_0396.htmlSource： exec Source:作用：启动一个用户所指定的linux shell命令,采集这个linux shell命令的标准输出，作为收集到的数据，转为event写入参数： type:exec command: tail

2021-05-08 20:08:36 240 1

原创 ClickHouse安装、新增用户、配置远程客户端连接

ClickHouse安装、新增用户、配置远程客户端连接1.安装仅提供centOS的安装步骤，依次执行以下命令：sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64如果您想使用最新版本，请将第三条命令中的st

2021-05-06 01:09:01 1956

原创 Redis常见问题-＞缓存穿透缓存击穿缓存雪崩缓存预热集群脑裂**详解及解决方案

缓存穿透缓存穿透是指用户请求的数据在缓存中不存在即没有命中，同时在数据库中也不存在，导致用户每次请求该数据都要去数据库中查询一遍，然后返回空。常见与恶意攻击时，不断请求系统中不存在的数据，导致短时间内大量请求缓存中找不到落到数据库中，同时因为不存在，也不会刷新到缓存中，导致数据库压力过大，甚至导致数据库崩溃。常见解决方法（1）缓存空对象当缓存未命中，而且查询数据库也为空时，可以将返回的空对象写到缓存中，这样下次请求的时候，就不会落到数据库中，存在问题：如果有大量的key穿透，会占用不必要的内.

2021-04-28 10:07:34 223 1

原创 Hive调优总结

代码级别的调优友情提示：小编扛着发烧写完这详细的总结，请一定要给一键三连呀各位大佬explain 与 explain exented 优化```powershellexplain select * from text1;explain extended select * from text1;explain extendedselectd.deptno as deptno,d.dname as dnamefrom dept dunion allselectd.dname as

2021-04-02 11:23:53 134

原创 hive企业级调优顶级方案

代码级别的调优友情提示：小编扛着发烧写完这详细的总结，请一定要给一键三连呀各位大佬explain 与 explain exented 优化```powershellexplain select * from text1;explain extended select * from text1;explain extendedselectd.deptno as deptno,d.dname as dnamefrom dept dunion allselectd.dname as d

2021-04-01 21:48:17 252 2

原创归并排序-算法详解

排序算法1、基本介绍排序算法比较基础，但是设计到很多计算机科学的想法，如下： 1、比较和非比较的策略 2、迭代和递归的实现 3、分而治之思想 4、最佳、最差、平均情况时间复杂度分析 5、随机算法2、排序算法的分类算法分类[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E4BBvMf7-1616728017274)(F:\资料\数据结构的那些坑\排序算法\1.jpg)]算法总结[外链图片转存失败,源站可能有防盗链机制,建

2021-03-26 11:09:10 148

原创大数据高级核心技术点问题总结

大数据高级核心技术点问题总结1、 HDFS 读写流程？读：客户端发出请求 hdfs dfs -put /etc/profile /qf/datanamenode 查看维护的目录结构，检查/qf/data 是否存在，如不存在直接报错”no suchfile or directory“，如存在返回给客户端同意上传文件请求，将操作写入日志文件客户端请求上传第一个块，询问 namenode 块的存储位置namenode 查看自己的 datanode 池，返回给客户端一个 datanode 列表客..

2021-03-26 11:03:53 1285

原创能够打败xshell的Linux web交互工具Cockpit的安装与介绍

Linux web交互工具Cockpit的安装案例介绍：这里以一台阿里云ECS服务器(Centos 7）为例，该案例安装同样适用于其他 VM wareLinux虚拟机安装，如果为Centos系统，建议版本在Centos7或者以上案例开始：1.利用yum查看当前所有cockpit可用功能模块的软件包yum list |grep cockpit2.利用yum安装所有cockpit软件包3.启动cockpit服务systemctl enable --now

2020-12-31 23:23:11 2244 4

大数据平台车辆监控系统HTML模板.rar

覆盖全行业大数据丰富的可视化模板材料下载，价值1000的资源包现在只需几块钱，专为前端人才解决重复的操作，模板由专业人员分析创作生成，更改背景图片与内容即可解决大部分界面开发问题，实现高效开发

2021-03-26

大数据 Spark Hive等等解决数据倾斜问题的所有方案及有没有最新技术？

2021-03-31

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除