- 博客(12)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 高阶Flume理论知识个人心得
高阶Flume理论知识个人心得一、flume的概念Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志数据采集、聚合和传输的工具二、flume的作用读取各类数据源数据,经过 采集-聚合-传输流程 ,将数据写入HDFS、hbase、hive、kafka等众多外部存储系统中三、Flume的运行原理及架构组成架构组成:agent+collector+storageagent 用于采集数据,agent是flume中产生数据流的地方,同时,agent会将产生的数据流传输到
2021-05-08 20:12:49 377 2
原创 spark内核解析和调优指南
Spark内存管理Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文中阐述的原理基于 Spark 2.X 版本。在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor
2021-04-12 17:40:05 580
原创 Ambari 集成LDAP技术方案
LDAP是轻型目录访问协议(Lightweight Directory Access Protocol,LDAP)。简单理解可以把LDAP看作是一个树形结构的数据库,通常用于实现账号的统一管理。cron_sync_job.sh: 负责定时任务。设置及自动化同步过程的日志管理ldap_sync.sh : 负责解析users.txt文件中的用户,进行用户同步sync_shell.sh : 负责与ambari自动化交互,进行用户数据同步init.sh : 配置文件,包含日志目录,用户文件路径等等配置。
2022-11-08 14:41:19 1462 2
原创 Flume Source channel Sink专题
Flume->Source channel Sink三剑客专题分享华为权威参考地址:https://support.huaweicloud.com/cmpntguide-mrs/mrs_01_0396.htmlSource: exec Source:作用:启动一个用户所指定的linux shell命令,采集这个linux shell命令的标准输出,作为收集到的数据,转为event写入参数: type:exec command: tail
2021-05-08 20:08:36 240 1
原创 ClickHouse安装、新增用户、配置远程客户端连接
ClickHouse安装、新增用户、配置远程客户端连接1.安装仅提供centOS的安装步骤,依次执行以下命令:sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64如果您想使用最新版本,请将第三条命令中的st
2021-05-06 01:09:01 1956
原创 Redis常见问题->缓存穿透**缓存击穿 **缓存雪崩**缓存预热**集群脑裂**详解及解决方案
缓存穿透缓存穿透是指用户请求的数据在缓存中不存在即没有命中,同时在数据库中也不存在,导致用户每次请求该数据都要去数据库中查询一遍,然后返回空。常见与恶意攻击时,不断请求系统中不存在的数据,导致短时间内大量请求缓存中找不到落到数据库中,同时因为不存在,也不会刷新到缓存中,导致数据库压力过大,甚至导致数据库崩溃。常见解决方法(1)缓存空对象当缓存未命中,而且查询数据库也为空时,可以将返回的空对象写到缓存中,这样下次请求的时候,就不会落到数据库中,存在问题:如果有大量的key穿透,会占用不必要的内.
2021-04-28 10:07:34 223 1
原创 Hive调优总结
代码级别的调优友情提示:小编扛着发烧写完这详细的总结,请一定要给一键三连呀各位大佬explain 与 explain exented 优化```powershellexplain select * from text1;explain extended select * from text1;explain extendedselectd.deptno as deptno,d.dname as dnamefrom dept dunion allselectd.dname as
2021-04-02 11:23:53 134
原创 hive企业级调优顶级方案
代码级别的调优友情提示:小编扛着发烧写完这详细的总结,请一定要给一键三连呀各位大佬explain 与 explain exented 优化```powershellexplain select * from text1;explain extended select * from text1;explain extendedselectd.deptno as deptno,d.dname as dnamefrom dept dunion allselectd.dname as d
2021-04-01 21:48:17 252 2
原创 归并排序-算法详解
排序算法1、基本介绍 排序算法比较基础,但是设计到很多计算机科学的想法,如下: 1、比较和非比较的策略 2、迭代和递归的实现 3、分而治之思想 4、最佳、最差、平均情况时间复杂度分析 5、随机算法2、排序算法的分类算法分类[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E4BBvMf7-1616728017274)(F:\资料\数据结构的那些坑\排序算法\1.jpg)]算法总结[外链图片转存失败,源站可能有防盗链机制,建
2021-03-26 11:09:10 148
原创 大数据高级核心技术点问题总结
大数据高级核心技术点问题总结1、 HDFS 读写流程?读:客户端发出请求 hdfs dfs -put /etc/profile /qf/datanamenode 查看维护的目录结构,检查/qf/data 是否存在,如不存在直接报错”no suchfile or directory“,如存在返回给客户端同意上传文件请求,将操作写入日志文件客户端请求上传第一个块,询问 namenode 块的存储位置namenode 查看自己的 datanode 池,返回给客户端一个 datanode 列表客..
2021-03-26 11:03:53 1285
原创 能够打败xshell的Linux web交互工具Cockpit的安装与介绍
Linux web交互工具Cockpit的安装 案例介绍: 这里以一台阿里云ECS服务器(Centos 7)为例,该案例安装同样适用于其他 VM wareLinux虚拟机安装,如果为Centos系统,建议版本在Centos7或者以上 案例开始:1.利用yum查看当前所有cockpit可用功能模块的软件包yum list |grep cockpit2.利用yum安装所有cockpit软件包3.启动cockpit服务systemctl enable --now
2020-12-31 23:23:11 2244 4
大数据平台车辆监控系统HTML模板.rar
2021-03-26
大数据 Spark Hive等等解决数据倾斜问题的所有方案及有没有最新技术?
2021-03-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人