自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(255)
  • 资源 (1)
  • 收藏
  • 关注

转载 Impala使用的端口

Impala 使用的端口下表中列出了 Impala 是用的 TCP 端口。在部署 Impala 之前,请确保每个系统上这些端口都是打开的。组件 服务 端口 访问需求 备注 Impala Daemon Impala 守护进程前端端口 21000 外部 被 impala-shell, Beeswax, Cloudera ODBC 1.2 驱动 用于传递命令和接收结果。参见Conf.

2020-12-04 14:30:35 857

转载 深入理解Linux shell中2>&1的含义(全网最全,看完就懂)

A.首先了解下1和2在Linux中代表什么在Linux系统中0 1 2是一个文件描述符名称 代码 操作符 Java中表示 Linux 下文件描述符(Debian 为例) 标准输入(stdin) 0 < 或 << System.in /dev/stdin -> /proc/self/fd/0 -> /dev/pts/0 标准输出(stdout) 1 >, >>, 1> 或 1.

2020-12-01 13:38:47 313

转载 Hadoop2.6新增用户隔离 hdfs权限介绍

Hadoop2.6新增用户隔离1.hadoop文件权限介绍#  (这部分内容参考成品 https://blog.csdn.net/skywalker_only/article/details/40709447)之前在论坛看到一个关于HDFS权限的问题,当时无法回答该问题。无法回答并不意味着对HDFS权限一无所知,而是不能准确完整的阐述HDFS权限,因此决定系统地学习HDFS文件权限。HDFS的文件和目录权限模型共享了POSIX(Portable Operating System Interfa.

2020-11-24 11:22:10 558

转载 hadoop fs 命令详解

hadoop fs 命令Most of the commands in FS shell behave like corresponding Unix commands. Differences are described with each of the commands. Error information is sent to stderr and the output is sent to stdout.If HDFS is being used,hdfs dfsis a synonym..

2020-11-23 15:38:13 1338

转载 JobHistoryServer详解

JobHistoryServer 历史服务器,管理者可以通过历史服务器查看已经运行完成的Mapreduce作业记录,比如用了多少个Map、多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。 默认情况下,历史服务器是没有启动的,需要进行参数配置才能启动。参数配置mapred-site.xml文件:<property> <name>mapreduce.jobhistory.address&l...

2020-11-22 22:09:49 1926

转载 hadoop的metrics和jmx相关接口

1、取自ResourceManager REST API’s指标;https://hadoop.apache.org/docs/r2.8.4/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.htmlhttp://<rm http address:port>/ws/v1/cluster/metricshttp://**.**.***.208:8088/ws/v1/cluster/metrics集群节点状态信息指标2、取自.

2020-11-03 17:11:10 1699

转载 ZooKeeper故障节点替换过程详解

一、环境描述我的生产环境ZooKeeper 版本3.4.6,5个节点组成的ZooKeeper集群。ZooKeeper集群为一套8个节点的Hadoop集群和HBase 集群提供高可用保障。二、问题描述因为某些特殊原因,需要替换掉myid为5(IP:10.10.10.30)的ZooKeeper节点,故障节点IP:10.10.10.30替换为10.10.10.37。10.10.10.37节点是现有环境的namenode节点,Hadoop用户、相关目录,授权、hosts文件已经满足Zo...

2020-10-13 14:08:59 1060

原创 Hive查询结果带表头导出csv文件

Hive导出查询结果到本地文件有两种方式:通过“INSERT OVERWRITE [LOCAL] DIRECTORY directory1 SELECT ...FROM ...”方式 通过hive客户端执行查询文件并将结果重定向到导出文件insert方式示例insert overwrite local directory '/opt/test_pro/hive3.1.2/emp_export.txt'row format delimited fields terminated by '\t'

2020-10-12 14:30:27 7278

转载 spark shuffle:分区原理及相关的疑问

一、分区原理1.为什么要分区?(这个借用别人的一段话来阐述。)为了减少网络传输,需要增加cpu计算负载。数据分区,在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络传输,io因为要大量读写文件,它是不可避免的,但是网络传输是可以避免的,把大文件压缩变小文件, 从而减少网络传输,但是增加了cpu的计算负载。Spark里面io也是不可避免的,但是网络传输spark里面进行了优化。spark把rdd进行分区(分片),放在集群上并...

2020-09-16 18:13:18 756

原创 HBase的master显示的注册上的RegionServer主机名和别名同时存在的问题

问题描述现象master的WebUI截图截图描述图中红色选中的部分为配置的RS机器的别名1.hbase-1.2.2/conf/regionservers中无论配置别名和配置主机名,master的webui中RegionServer的列表都同时存在别名和主机名的RS日志其中一个RegionServer的日志显示RegionServer注册的主机名和master给出的主机名不一致regionserver.HRegionServer: Master pas..

2020-08-20 17:48:48 1511

转载 Zookeeper 日志输出到指定文件夹

最近在研究Zookeeper Storm Kafka, 顺便在本地搭了一套集群, 遇到了Zookeeper日志问题输出路径的问题, 发现zookeeper设置log4j.properties不能解决日志路径问题, 发现解决方案如下:1. 修改log4j.properties, 这个大家都应该会改, 红色加粗处是我修改的, 但是改了这边还是不生效# Define some default values that can be overridden by system properties...

2020-08-17 10:58:03 593 2

转载 HBase最佳实践-用好你的操作系统--swap是干嘛的?

swap是干嘛的?在Linux下,SWAP的作用类似Windows系统下的“虚拟内存”。当物理内存不足时,拿出部分硬盘空间当SWAP分区(虚拟成内存)使用,从而解决内存容量不足的情况。SWAP意思是交换,顾名思义,当某进程向OS请求内存发现不足时,OS会把内存中暂时不用的数据交换出去,放在SWAP分区中,这个过程称为SWAPOUT。当某进程又需要这些数据且OS发现还有空闲物理内存时,又会把SWAP分区中的数据交换回物理内存中,这个过程称为SWAPIN。当然,swap大小是有上限的,一旦swa..

2020-08-03 18:11:40 500

转载 Linux中Buffer和Cache的区别

1. Cache:缓存区,是高速缓存,是位于CPU和主内存之间的容量较小但速度很快的存储器,因为CPU的速度远远高于主内存的速度,CPU从内存中读取数据需等待很长的时间,而 Cache保存着CPU刚用过的数据或循环使用的部分数据,这时从Cache中读取数据会更快,减少了CPU等待的时间,提高了系统的性能。 Cache并不是缓存文件的,而是缓存块的(块是I/O读写最小的单元);Cache一般会用在I/O请求上,如果多个进程要访问某个文件,可以把此文件读入Cache中,这样下一个进程获取CPU控制权...

2020-08-03 17:34:53 458

原创 HBase读取流程概述

1、根据rowkey定位到对应的RegionServer的目标region 1.1、通过客户端缓存的rowkey和RegionServer的映射信息定位目标RS和region 1.2、客户端找不到的话从zk上的/hbase-root/meta-region-server节点获取保存HBase元数据表hbase:meta所在的RegionServer 1.3、客户端与保存元数据的RS通讯,查找rowkey对应的RS和region信息 2、构造三层Scann...

2020-07-30 15:23:39 390

转载 HBase Scan流程分析

HBase Scan流程分析HBase的读流程目前看来比较复杂,主要由于:HBase的表数据分为多个层次,HRegion->HStore->[HFile,HFile,...,MemStore] RegionServer的LSM-Like存储引擎,不断flush产生新的HFile,同时产生新的MemStore用于后续数据写入,并且为了防止由于HFile过多而导致Scan时需要扫描的文件过多而导致的性能下降,后台线程会适时的进行Compaction,Compaction的过程会产生新的HF

2020-07-30 13:58:18 537

转载 HBase 是列式存储数据库吗

在介绍HBase是不是列式存储数据库之前,我们先来了解一下什么是行式数据库和列式数据库。行式数据库和列式数据库在维基百科里面,对行式数据库和列式数据库的定义为:列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理(OLAP)和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理(OLTP)。比如我们有以下的表格:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号..

2020-07-27 18:00:28 2839

转载 HDFS读写流程

一 HDFS 客户端读文件流程1打开HDFS文件: HDFS客户端首先调用DistributedFileSystem.open方法打开HDFS文件,底层会调用ClientProtocal.open方法,返回一个用于读取的HdfsDataInputStream对象2从NameNode获取DataNode地址:在构造DFSInputStream的时候,对调用ClientPortocal.getBlockLocations方法向NameNode获取该文件起始位置数据块信息。NameNode返回的数

2020-07-24 11:19:47 240

转载 CentOS-6.x系列查看cpu核数

使用CentOS7.x使用习惯了后用top命令,然后按1就可以查看相关的cpu核心数等相关信息相关概念: 物理CPU:实际Server中插槽上的CPU个数。 物理cpu数量:可以数不重复的 physical id 有几个。 逻辑CPU:     Linux用户对 /proc/cpuinfo 这个文件肯定不陌生. 它是用来存储cpu硬件信息的信息内容分别列出了processor 0 – ...

2020-07-22 10:02:04 491

原创 git在指定提交记录打Tag

1、通过git log查看要特定commit提交记录的hash值git log --pretty=oneline --abbrev-commit2、通过git tag 命令打tag选择某个提交记录打tag,上一步看到的是hash前缀,在idea里提交记录如果中文可能是乱码,直接复制版本号前缀匹配git tag -a v_tag_V3.4.5 -m "tag描述" 768a49ff3、将tag通过git push origin 推送到远端(少了这一步,远程看不到本地的tag)g

2020-07-14 15:16:45 3972

转载 简单了解SQL与T-SQL的区别以及T-SQL语言的组成和语句结构

一.SQL Server和T-SQL的区别SQL Server是结构化查询语言,是目前关系型数据库管理系统中使用最广泛的查询语言T-SQL即 Transact-SQL,是标准SQL语言的扩展,是SQL Server的核心,在SQL的的基础上添加了变量,运算符,函数和流程控制等新内容,总之SQL Server是几乎所有关系型数据库都支持的语言,而T-SQL是Microsoft SQL Server支持的语言二.T-SQL语言的组成数据定义语言(DDL,Data Definition La.

2020-07-03 14:54:59 1280

转载 电脑双屏变单屏后,界面显示问题

 一开始电脑连了显示器,然后将一个软件在显示器里打开显示,结果电脑变成单屏后,竟然没显示出来,一开始还以为是软件出了问题,后面发现不是这个原因,其实软件是打开来了,只是没有在电脑可见界面显示出来。  解决办法如下启动软件,启动以后别点别的地方,以便让软件拥有焦点。按 Alt + 空格,然后按 M 。按一下随便什么方向键,比如左。移动鼠标。————————————————版权声明:本文为CSDN博主「ccc_12345」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接

2020-06-25 19:04:08 3646 1

原创 Java编译器优化技术之逃逸分析

一、逃逸分析的原理逃逸分析(Escape Analysis)是目前Java虚拟机中比较前沿的优化技术,它与类型继承关系分析一样,并不是直接优化代码的手段,而是为其他优化措施提供依据的分析技术。逃逸分析的基本原理:方法逃逸:分析对象动态作用域,当一个对象在方法里面被定义后,它可能被外部方法所引用,例如作为调用参数传递到其他方法中,这种称为方法逃逸; 线程逃逸:甚至还有可能被外部线程访问到,譬如赋值给可以在其他线程中访问的实例变量,这种称为线程逃逸;从不逃逸、方法逃逸到线程逃逸,称为对象由低到高

2020-06-20 12:59:00 401

转载 HDFS的权限管理

1 HDFS的权限管理介绍HDFS的权限管理分成2大部分: 类似linux的基本权限管理(粗粒度) 针对管理对象分三种:user、group、other方式的权限管理方式 user:即目录或文件的owner group:即上述owner所在的组 other:其他用户的统称 ACL方式的权限管理(细粒度) 可以精确控制到某个user、某个group具有对应的权限 2种方式具体见下图基本的权限方式如同linux中目录或文件的权限管理方式,它是一种粗粒度的,不能

2020-06-11 11:04:47 3146

转载 InheritableThreadLocal详解

1、简介在上一篇 ThreadLocal详解 中,我们详细介绍了ThreadLocal原理及设计,从源码层面上分析了ThreadLocal。但由于ThreadLocal设计之初就是为了绑定当前线程,如果希望当前线程的ThreadLocal能够被子线程使用,实现方式就会相当困难(需要用户自己在代码中传递)。在此背景下,InheritableThreadLocal应运而生。Inheritable thread-local variables are used in preference to ordi

2020-06-05 17:02:19 413

转载 Cache与主存之间的全相联映射,直接映射和组相联映射的区别

Cache与主存之间的全相联映射,直接映射和组相联映射的区别1.高速缓冲存储器的功能、结构与工作原理  高速缓冲存储器是存在于主存与CPU之间的一级存储器,由静态存储芯片(SRAM)组成,容量比较小但速度比主存高得多,接近于CPU的速度。Cache的功能是用来存放那些近期需要运行的指令与数据。目的是提高CPU对存储器的访问速度。为此需要解决2个技术问题:一是主存地址与缓存地址的映象及转换;二是按一定原则对Cache的内容进行替换。Cache的结构和工作原理如图2.3.1所示。...

2020-06-05 14:02:39 6864 2

转载 Hive中使用 with as 优化SQL

背景:当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高SQL可读性,简化SQL~注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持!2019-05-31更新:MySQL8.0大量更新优化,支持Common table expressions,即支持 with 语法!一、介绍with as 也叫做子查询部分,首先定义一个sql.

2020-06-02 17:20:46 802

转载 数据仓库ODS、DW和DM概念区分

今天看了一些专业的解释,还是对ODS、DW和DM认识不深刻,下班后花时间分别查了查它们的概念。ODS——操作性数据(Operational Data Store)DW——数据仓库(Data Warehouse)DM——数据集市(Data Mart)1.数据中心整体架构数据中心整体架构数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的.

2020-06-02 14:49:35 562

转载 Solr架构原理相关

Solr的工作原理以及如何管理索引库https://blog.csdn.net/qq_41717874/article/details/84026286Solr工作原理https://blog.csdn.net/abcwanglinyong/article/details/81031369Solr(Solr介绍、Solr应用架构、Solr安装使用)https://blog.csdn.net/qq_26676207/article/details/81026583...

2020-05-30 23:14:20 241

转载 Java日常问题诊断方法

日志检索#检索exception关键字或error关键字grep-E"exception|error"app.log#显示关键字上下10行日志grep-C10exceptionapp.log#检索2020-05-0519:23~25分钟段日志grep'2020-05-0519:2[3-5]'app.logsed-n'/2020-05-0519:23/,/2020-05-0519:25/p'app.log#检索202...

2020-05-29 11:11:32 389

转载 数据仓库基础知识

数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。——数据仓库之父--Bill Inmon数据仓库基本特性面向主题性面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织的。确定主题以后,需

2020-05-27 14:37:53 1176

转载 Livy:基于Apache Spark的REST服务

Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活,但在企业应用中面临诸如部署、安全等问题。为此本文引入Livy这样一个基于Apache Spark的REST服务,它不仅以REST的方式代替了Spark传统的处理交互方式,同时也提供企业应用中不可忽视的多用户,安全,以及容错的支持。背景Apache Spark作为当前最为流行的开源大数据计算框架,广泛应用于数据处理和分析应用,它提供了两种方式来处理数据:一是交互式处理,比如用户使用spark-shell或是pyspark脚本启动S

2020-05-25 13:54:04 297

转载 Git 导出所有日志记录到文件中

Git 导出所有日志记录到文件中git log --after="2018-08-21 00:00:00" --graph --date=format:'%Y-%m-%d %H:%M:%S' --pretty=format:'%Cred%h%Creset - 【%an】 %C(yellow)%d%Cblue %s %Cgreen(%cd) %C(bold blue)%Creset' >commit20200521_graph.loggit log统计统计一段时间git log --a.

2020-05-21 17:56:04 5516

转载 Hive中常用的一些配置操作(日志,显示等操作)

1.修改默认的数据仓库位置,在hive-site.xml文件中配置如下参数:<property> <name>hive.metastore.warehouse.dir</name> <value>自己指定仓库位置(eg:/user/hive/warehouse)</value></property>添加好参数以后,需要对指定的目录附上用户组的权限,执行以下命令:$ $HADOOP_HOME/...

2020-05-20 09:50:59 1517

转载 Git撤销已经推送(push)至远端仓库的提交(commit)信息

有关修改提交(git commit)信息的方法可以参考: Git commit –amend 修改提交信息有时,在git push之后,才发现还有一些代码需要进行很小的改动,这些改动在原则上不应该作为一次新的提交。这时,我们需要撤销这次推送(git push)与提交(git commit),然后进行代码修改,再重新进行提交和推送。为了实现这个目的,需要进行三步操作。1.撤销提交信息首先,通过git log查看提交信息,以便获取需要回退至的版本号:$ git logcommit a.

2020-05-19 10:44:10 888

转载 Maven快照机制(SNAPSHOT)

以下引用自https://ayayui.gitbooks.io/tutorialspoint-maven/content/book/maven_snapshots.html:一、场景一个大型的软件应用通常包含多个模块,并且通常的场景是多个团队开发同一应用的不同模块。举个例子,设想一个团队开发应用的前端,项目为app-ui(app-ui.jar:1.0),而另一个团队开发应用的后台,使用的项目是data-service(data-service.jar:1.0)。现在可能出现的情况是开发da...

2020-05-18 11:02:40 376

原创 Phoenix时间范围查询

select * from table1 where cast(TO_DATE(start_time,'yyyyMMddHHmmss') as date) between cast(TO_DATE('20200514000000','yyyyMMddHHmmss') as date) and cast(TO_DATE('20200515000000','yyyyMMddHHmmss') as date);

2020-05-15 11:41:24 1347

原创 The reference to entity "useSSL" must end with the ';' delimiter.

在搭建测试环境的hive的时候,发现启动的时候,经常报以下警告信息Thu May 14 09:52:26 CST 2020 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by

2020-05-14 10:10:40 1666

转载 Phoenix命令及语法

基本命令:首先sqlline.py lyy1,lyy2,lyy3,lyy4:2181登录到Phoenix的shell中,可以使用正常的SQL语句进行操作。!table查看表信息!describe tablename可以查看表字段信息!history可以查看执行的历史SQL!dbinfo!index tb;查看tb的索引help查看其他操作导入数据: 在phoenix 目录下执行hadoop jar /home/phoenix-4.12/phoenix-4.6.0-HBase-1.0-.

2020-05-11 15:21:16 1472

转载 HDFS NameNode内存全景

一、概述从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4.1之后已经有多次版本迭代,但是基本原理相同。NameNode管理着整个HDFS文件系统的元数据。从架构设计

2020-05-09 17:05:25 312

原创 Java对象死亡判定

Java对象死亡判定1、判定对象是否存活1.1、引用计数算法在对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加一;当引用失效时,计数器值就减一;任何时刻计数器为零的对象就是不可能再被使用的优缺点缺点1、两个对象再无任何引用,实际上这两个对象已经不可能再被访问,但是它们因为互相引用着对方,导致它们的引用计数都不为零,引用计数算法也就无法回收它们2、占用了一些额外的内...

2020-04-17 11:19:30 394

统计hdfs占用空间较大的作业目录支持自定义目录和topN数的脚本

大数据运维的好工具,提供topN数量和目录,输出占用hdfs空间较大的作业列表,较快的排查与处理hdfs占用空间较大的作业导致集群满的问题

2021-02-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除