大数据
文章平均质量分 73
RunningShare
这个作者很懒,什么都没留下…
展开
-
Doris SQL 原理解析
本文主要介绍了Doris SQL解析的原理。重点讲述了生成单机逻辑计划,生成分布式逻辑计划,生成分布式物理计划的过程。对应于代码实现是Analyze,SinglePlan,DistributedPlan,Schedule四个部分。Analyze负责对AST进行前期的一些处理,SinglePlan根据AST进行优化生成单机查询计划,DistributedPlan将单机的查询计划拆成分布式的查询计划,Schedule阶段负责决定查询计划下发到哪些机器上执行。由于SQL类型有很多,本文侧重介绍查询SQL的解转载 2023-03-02 23:42:48 · 945 阅读 · 1 评论 -
TPC-C 、TPC-H和TPC-DS区别
TPC-C:TPC Benchmark C于1992年7月获得批准,是一个在线事务处理(OLTP)基准。 与TPC-A等以前的OLTP基准测试相比,TPC-C更复杂,因为它具有多种事务类型,更复杂的数据库和整体执行结构。 TPC-C涉及五个不同类型和复杂性的并发事务的混合,这些事务可以在线执行或排队等待延迟执行。 该数据库由九种类型的表组成,具有广泛的记录和人口规模。 TPC-C以每分钟事务数(tpmC)衡量。 虽然基准描述了批发供应商的活动,但TPC-C并不限于任何特定业务领域的活动,而是代表必须管理转载 2022-07-20 23:15:01 · 3586 阅读 · 0 评论 -
flink solt和并行度
编译flink-shaded-hadoop-2-uber.jar包从Flink 1.10开始,flink-shaded-hadoop-2-uberFlink项目不再正式支持使用发行版。如果想建立flink-shaded对供应商特定的Hadoop版本,您必须首先描述配置特定供应商的Maven仓库在本地Maven安装在这里。完成此步骤后,将flink-shaded-hadoop-2-uber.jar放入Flink下的/lib目录中。编译环境Flink1.10 Hadoop2.7.7转载 2021-09-07 23:16:55 · 497 阅读 · 0 评论 -
Fluentd 缓冲区设置
缓冲区配置Fluentd输出插件支持< buffer >部分来配置事件的缓冲。缓冲由Fluentd内核处理。缓冲区概述缓冲区位于<match>部分之下。它为那些支持缓冲输出特性的输出插件启用。<match tag.*> @type file # ... <buffer> # ... </buffer> # <buffer> section can only be configured o.翻译 2021-06-04 14:18:30 · 3789 阅读 · 0 评论 -
Fluentd:用Hadoop收集数据(HDFS)
用Hadoop收集数据(HDFS)本文解释了如何使用Fluentd的WebHDFS输出插件将半结构化日志聚合到Hadoop HDFS中。背景Fluent是一个高级的开源日志收集器,最初是由Treasure Data公司开发的。Fluent是专门为解决大数据日志收集问题而设计的。许多用户正在使用Fluentd和MongoDB,并发现它目前无法很好地扩展。 HDFS (Hadoop)是存储和处理大量数据的自然选择。除了Java库之外,它还支持一个名为WebHDFS的HTTP接口。 本文将向您展示如何翻译 2021-06-03 15:27:53 · 395 阅读 · 0 评论 -
livy(0.5) on zeppelin(0.8)报No YARN application is found with tag问题解决
文章目录环境信息代码报错livy日志报No YARN application is found with tag排查尝试远程调试远程调试步骤远程调试结果尝试修改超时参数转换思路:发现不在同一个机房的网络总结环境信息livy(0.5) on zeppelin(0.8)代码%livysc.range(1,10).sum()报错livy日志报No YARN application is found with tag21/05/13 15:34:41 INFO RSCClient: Failin原创 2021-05-17 09:57:43 · 1203 阅读 · 0 评论 -
Idea 远程调试Livy Server
Idea 远程调试Livy ServerLivyServer配置修改conf/livy-env.sh添加LIVY_SERVER_JAVA_OPTSLIVY_SERVER_JAVA_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=57777"IDEA配置创建remote连接填写host和port,idea自动生成(-agentlib:jdwp=transport=dt_socket,server=y,sus原创 2021-05-14 18:13:23 · 340 阅读 · 0 评论 -
hive备份建表语句并批量建表
脚本内容如下: #!/bin/bash##获取数据库databases=$(hive -e "show databases; exit;")for database in $databases;do #获取hive建表语句 tables=$(hive -e "use $database; show tables;") for table in $tables; do echo "--=========== db: $database原创 2021-01-29 19:43:22 · 858 阅读 · 0 评论 -
ZooKeeper故障节点替换过程详解
一、环境描述我的生产环境ZooKeeper 版本3.4.6,5个节点组成的ZooKeeper集群。ZooKeeper集群为一套8个节点的Hadoop集群和HBase 集群提供高可用保障。二、问题描述因为某些特殊原因,需要替换掉myid为5(IP:10.10.10.30)的ZooKeeper节点,故障节点IP:10.10.10.30替换为10.10.10.37。10.10.10.37节点是现有环境的namenode节点,Hadoop用户、相关目录,授权、hosts文件已经满足Zo...转载 2020-10-13 14:08:59 · 982 阅读 · 0 评论 -
Zookeeper 日志输出到指定文件夹
最近在研究Zookeeper Storm Kafka, 顺便在本地搭了一套集群, 遇到了Zookeeper日志问题输出路径的问题, 发现zookeeper设置log4j.properties不能解决日志路径问题, 发现解决方案如下:1. 修改log4j.properties, 这个大家都应该会改, 红色加粗处是我修改的, 但是改了这边还是不生效# Define some default values that can be overridden by system properties...转载 2020-08-17 10:58:03 · 567 阅读 · 2 评论 -
Solr架构原理相关
Solr的工作原理以及如何管理索引库https://blog.csdn.net/qq_41717874/article/details/84026286Solr工作原理https://blog.csdn.net/abcwanglinyong/article/details/81031369Solr(Solr介绍、Solr应用架构、Solr安装使用)https://blog.csdn.net/qq_26676207/article/details/81026583...转载 2020-05-30 23:14:20 · 225 阅读 · 0 评论 -
数据仓库基础知识
数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。——数据仓库之父--Bill Inmon数据仓库基本特性面向主题性面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织的。确定主题以后,需转载 2020-05-27 14:37:53 · 1133 阅读 · 0 评论 -
cdh6.2.1安装时账户免密登录验证失败问题解决
如题,在安装cdh6.2.1时,在验证agent主机的免密账号时,一直验证失败,打开日志显示2020-02-16 19:09:08,856 INFO NodeConfiguratorThread-10-0:com.cloudera.server.cmf.node.NodeConfiguratorProgress: hadoop08-test1-rgtj1-tj1: Setting AUT...原创 2020-02-16 19:31:52 · 2943 阅读 · 2 评论 -
CDH6.2.1安装时出现Error: Multilib version problems found Protected multilib versions: libcom_err 问题
如题,在执行启动agent相关进程的时候报了如下错误:Error: Multilib version problems found. This often means that the root cause is something else and multilib version checking is just pointing out that ther...原创 2020-02-16 17:17:58 · 1117 阅读 · 0 评论 -
CDH6.2.1安装时cloudera-scm-server无法启动出现JDK版本不兼容问题
如题,今天在测试环境安装CDH6.2.1时,cloudera-scm-server无法启动,查看日志文件/var/log/cloudera-scm-server/cloudera-scm-server.out,发现以下输出:+======================================================================+| Error...原创 2020-02-16 17:01:03 · 4052 阅读 · 3 评论 -
记一次DataNode挂掉导致NameNode显示大量坏块的问题处理
目录背景:所需知识:坏块处理:批量删除坏块总结:未解决疑问:背景:测试环境今天有人反馈有DataNode节点挂掉有部分block不能用的问题,看了下确实active的NN页面显示有52336个坏块,且看datanode节点列表有个节点是Dead状态,不过仔细一看发现stanby的NN的页面里该DataNode是正常的。所需知识:坏块:corruptRe...原创 2020-01-10 10:21:38 · 1368 阅读 · 0 评论 -
在程序中指定Spark和Hadoop的用户
Spark和Hadoop都被设计为多用户共享使用,每个用户程序都关联一个用户,Spark和Hadoop根据该用户授予用户程序对集群相关资源的访问权限。如果是强认证方式,每个用户程序关联的用户不可随意指定,而至少需要提供必要的认证信息(如密码);如果是弱认证方式,则可以在用户程序中指定关联用户,而不需要提供认证信息。Spark(0.8.0版本)使用的是弱认证方式,Hadoop可以配置使用强认证方式(...转载 2019-12-27 17:28:31 · 3473 阅读 · 0 评论 -
datanode节点名称是localhost的问题解决
一、问题背景今天过来发现预生产的hadoop集群全挂了,后来才知道昨晚运维把集群停机换内存,真心***,把集群机器恢复过程中,将机器的datanode启动后,在namenode的webui列表里发现该机器的节点名称怎么是localhost,截图如下:二、问题现象如上所示,节点的名称本该是datanode**的主机名,变成localhost看了下主机名确实是换了,以为是运维主机名...原创 2019-12-12 14:51:04 · 3256 阅读 · 0 评论 -
Why Should HBase RegionServer & Hadoop DataNode Colocate?
Some basic background information first, HBase, as a distributed NoSQL database, its slave (worker) node is named “RegionServer”, all data reading, writing or scanning workloads are on these RegionSer...转载 2019-11-29 09:43:49 · 207 阅读 · 0 评论 -
记hadoop集群黑名单移除节点出现问题及解决
首先区分一下通过直接下线服务和通过黑名单来移除节点的区别,这两个动作都会涉及到block副本数不够而复制移动恢复的问题,但是通过黑名单的话可以同时移除多个节点,这个是两种情况的主要区别;步骤:1.移除nodemanager在yarn-site.xml中加入以下配置<property><name>ya...转载 2019-11-29 09:37:45 · 361 阅读 · 0 评论 -
JobHistoryServer无法正常启动
今天在测试环境启动JobHistoryServer,发现无法正常启动,报错信息如下:2019-10-28 17:44:33,030 INFO org.apache.hadoop.mapreduce.v2.hs.JobHistoryServer: registered UNIX signal handlers for [TERM, HUP, INT]2019-10-28 17:44:33,6...原创 2019-10-28 17:57:37 · 4278 阅读 · 0 评论 -
重新启动ResourceManger----官网谷歌翻译
重新启动ResourceManger重新启动ResourceManger 总览 特征 构型 总览ResourceManager是管理资源并计划在YARN之上运行的应用程序的中央机构。因此,它可能是Apache YARN群集中的单点故障。本文档概述了ResourceManager重新启动,此功能可增强ResourceManager使其在重新启动后仍能正常运行,并且还使Re...翻译 2019-10-28 16:45:20 · 371 阅读 · 0 评论 -
使用Quorum Journal Manager的HDFS高可用性----官网谷歌翻译
使用Quorum Journal Manager的HDFS高可用性使用Quorum Journal Manager的HDFS高可用性 目的 注意:使用Quorum Journal Manager或常规共享存储 背景 建筑 硬件资源 部署方式 配置概述 配置细节 部署细节 行政命令 自动故障转移 介绍 组件 部署ZooKee...翻译 2019-10-28 16:43:08 · 289 阅读 · 0 评论 -
ResourceManager高可用性---官网谷歌翻译
ResourceManager高可用性ResourceManager高可用性 介绍 建筑 RM故障转移 手动转换和故障转移 自动故障转移 RM故障转移上的客户端,ApplicationMaster和NodeManager 恢复先前活动的RM的状态 部署方式 构型 样本配置 管理员命令 ResourceMan...翻译 2019-10-28 16:42:05 · 299 阅读 · 0 评论 -
Hadoop MetricsSystem指标名称解释
metricssystem.MetricsSystem.DroppedPubAll |Dropped updates by all sinks |所有sink丢弃的指标数据更新次数 metricssystem.MetricsSys...原创 2019-10-12 13:49:04 · 299 阅读 · 0 评论 -
Hadoop日志存放路径详解
如果你想知道Spark作业运行日志,可以查看这里《Spark应用程序运行的日志存在哪里》 Hadoop的日志有很多种,很多初学者往往遇到错而不知道怎么办,其实这时候就应该去看看日志里面的输出,这样往往可以定位到错误。Hadoop的日志大致可以分为两类:(1)、Hadoop系统服务输出的日志;(2)、Mapreduce程序输出来的日志。这两类的日志存放的路径是不一样的。本文基于Hadoop 2...转载 2019-09-09 13:33:54 · 5705 阅读 · 0 评论 -
Hadoop MapReduce执行过程详解(带hadoop例子)
问题导读1.MapReduce是如何执行任务的?2.Mapper任务是怎样的一个过程?3.Reduce是如何执行任务的?4.键值对是如何编号的?5.实例,如何计算没见最高气温?分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输...转载 2019-09-06 14:09:31 · 1203 阅读 · 0 评论 -
Yarn中内存和cpu参数配置调优的理解
Container是什么?Container就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,你可以在RM的网页上【8088端口】看到Container的状态基础Yarn的ResourceManger(简称RM)通过逻辑上的队列分配内存,CPU等资源给application,默认情况下...转载 2019-09-04 10:40:00 · 2606 阅读 · 2 评论 -
从Hive的日志文件超大引出磁盘满问题并追踪出NameNode 安全模式的问题与处理
目录发现NameNode安全模式问题初步判断是磁盘满导致安全模式NameNode安全模式解释补充解释尝试重启DataNode重启NameNode总结发现NameNode安全模式问题一次偶然的机会,准备看下Hive的版本,发现无法执行hive脚本,发现Hive命令无法正常进入hive命令行,报错信息如下:ls: cannot access /usr...原创 2019-04-29 17:32:43 · 1773 阅读 · 0 评论 -
hadoop集群之HDFS和YARN启动和停止命令
假如我们只有3台linux虚拟机,主机名分别为hadoop01、hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下:hadoop01:1个namenode,1个datanode,1个journalnode,1个zkfc,1个resourcemanager,1个nodemanager;hadoop02:1个namenode,1个datanode,1个jour...转载 2019-09-10 14:56:34 · 7617 阅读 · 4 评论 -
HDFS HA与QJM(Quorum Journal Manager)介绍及官网内容整理
1.HDFS HA与QJM解决了什么问题?2.HDFS HA与QJM区别是什么?3.在HA(两个namenode)架构下,如何访问hdfs文件?【使用QJM构建HDFS HA架构(2.2+)】本文主要介绍HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。一、背景HDFS集群中只有一个Namenode,这就会...转载 2019-09-12 20:36:33 · 305 阅读 · 0 评论 -
hadoop2.x常用端口及定义方法
hadoop2.x常用端口及定义方法Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件 节点 默认端口 ...转载 2019-09-23 10:34:37 · 141 阅读 · 0 评论 -
-bash: /usr/local/miniconda2/bin/conda: /home/hadoop/miniconda2/bin/python: bad interpreter: No such
今天发现测试环境某个NodeManager的状态不良,看错误信息为磁盘满,于是打算清理相关没用的文件在/usr发现占用最大的是miniconda2的目录,这个目录之前是从/home目录迁移过去的,于是打算删除一些没用的conda安装包执行命令:/usr/local/miniconda2/bin/conda clean -y -t发现报错-bash: /usr/local/m...原创 2019-10-08 17:03:23 · 487 阅读 · 0 评论 -
HBase学习
1 摘要本文是一篇HBase学习综述,将会介绍HBase的特点、对比其他数据存储技术、架构、存储、数据结构、使用、过滤器等。关于Phoenix on HBase,即Sql化的HBase服务,可以参考Phoenix学习未完成2 HBase基础概念2.1 HBase是什么 起源 HBase源于Google 2005年的论文Bigtable。由Powerset公司在20...转载 2019-10-11 18:51:58 · 659 阅读 · 0 评论 -
关于YARN Node Labels的一点理解
最近在做实验,实验需要进行分区域计算,网上查了资料后发现Yarn Node Labels + Capacity-Scheduler可以实现我的需求但是当任务提交到capacity-scheduler调度器的default队列时,任务卡在ACCEPTED阶段。网上看了很多发现没有这方面的信息,最后在Apache hadoop官网的官方手册上查到有以下信息property Va...转载 2019-09-03 16:05:23 · 466 阅读 · 0 评论 -
两个stanby的NameNode问题解决
目录问题现象排查过程问题分析:解决:解决命令:问题现象今天测试环境的NameNode在发生gc停顿时间过长后退出,依次重启后发现无法正常的选出active节点,排查过程查看日志并没有zk选举相关的日志 zkfc进程的日志时间停留在出问题的几个小时前 具体日志: 2019-08-26 10:47:57,925 WARN org.apache.had...原创 2019-08-26 16:02:11 · 2026 阅读 · 1 评论 -
HDFS ls查看文件命令按照时间排序(sort by time)
我们在使用HDFSShell的时候只用最频繁的命令可能就是ls了,其具体含义我就不介绍了。在使用ls的命令时,我们可能想对展示出来的文件按照修改时间排序,也就是最近修改的文件(most recent)显示在最前面。如果你使用的是Hadoop2.8.0以下版本,内置是不支持按照时间等属性排序的。不过值得高兴的是,我们可以结合Shell命令来实现按照文件最近修改的时间对ls命...转载 2019-08-29 13:27:10 · 12717 阅读 · 0 评论 -
Hive 快速上手--官网中文翻译
目录安装和配置从一个稳定的发行版安装Hive编译Hive源码编译主干的Hive编译分支branch-1在Hadoop 0.20上在0.13之前编译Hive在Hadoop 0.23上在0.13之前编译Hive(Ant)运行Hive运行Hive CLI运行HiveServer2 和 Beeline运行HCatalog运行WebHCat (Temp...翻译 2019-04-30 17:52:22 · 1618 阅读 · 0 评论 -
Hadoop源码分析之NodeManager初始化、启动、注册
目录OverviewInitiateNodeHealthCheckerService init and StartupLocalDirsHandlerService init and startupNodeHealthScriptRunner init and startupNodeStatusUpdater Init and startupContainerMa...转载 2019-05-06 09:34:17 · 1067 阅读 · 0 评论 -
Warning: bad syntax, perhaps a bogus '-'? See /usr/share/doc/procps-3.2.8/FAQ
查看Linux的进程时执行 ps -aux|grep HiveServer2|grep -v grep报一下警告信息Warning: bad syntax, perhaps a bogus '-'? See /usr/share/doc/procps-3.2.8/FAQ修改为ps aux|grep HiveServer2|grep -v grep警告问题解决。...原创 2019-05-05 20:30:29 · 1138 阅读 · 0 评论