W609392362-CSDN博客

原创 hive集群数据迁移到EMR的Hbase集群

一、业务背景业务方需要搭建一套hbase集群，数据来源是hive表。为响应公司上云规划，hbase集群需通过EMR搭建。hive集群是在IDC机房，和普通集群迁移相比，这涉及到跨机房、跨集群的数据迁移，以及hive表数据到hbase集群数据的转换。二、技术方案步骤1、IDC机房与EMR网络的联通性验证2、在EMR上搭建hbase集群，hive组件3、迁移数据，数据...

2019-10-04 21:34:46 568

转载 hive性能调优及问题排查

软件环境：Hive1.2.1 ／Hadoop2.6.4 ；直接使用Hive Cli模式运行；1. 设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;如果设置执行引擎为mr，那么就会调用Hadoop的maprecude来运行需要执行job的程序；如果设置执行引擎为spark，那么就会调用spark来执行任...

2019-06-21 10:17:48 906

转载 Hive优化之小文件问题及其解决方案

小文件是如何产生的1.动态分区插入数据，产生大量的小文件，从而导致map数量剧增。2.reduce数量越多，小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。小文件问题的影响1.从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。2.在HDFS中，每个小文件...

2019-06-13 13:45:46 529

转载 spark与flink区别

Spark 比拼 Flink：下一代大数据计算引擎之争，谁主沉浮？https://www.infoq.cn/article/spark-vs-flink是时候放弃 Spark Streaming, 转向 Structured Streaming 了https://zhuanlan.zhihu.com/p/51883927RDD、DataFrame和Dataset 怎么选择才...

2019-06-06 16:31:52 979

原创 Same query, different results --Tez，MR

问题描述：通过MR、Tez运行同一个SQL，发现获得的结果不一致，MR有数据，而Tez没数据原因：tez内部的优化，默认批处理，导致没数据解决方案：https://issues.apache.org/jira/browse/HIVE-13330 Ps:SET hive.vectorized.execution.enabled=false;或SET hive.optimiz...

2019-05-28 17:22:51 469

原创 HDP 各版本组件文档

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.5/index.html

2019-05-15 18:12:32 3635

原创 yarn,resourcemanger HA，namenode HA,MapReduce ,MapReduce,YARN REST APIs

yarn,resourcemanger HA，namenode HA,MapReduce ,yarn APIhttp://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html

2019-05-10 16:23:19 134

原创 Yarn 内存分配管理机制及相关参数配置及HDP平台参数调优建议

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.1/bk_installing_manually_book/content/rpm-chap1-11.html

2019-05-10 14:25:34 419

转载从苦逼到牛逼，详解Linux运维工程师的打怪升级之路

转载：http://www.yunweipai.com/archives/22629.html作者介绍陈浩，北信源研发工程师，五年Linux运维工作经验，热衷运维技术研究、实践和团队分享。运维工程师是从一个呆逼进化为苦逼再成长为牛逼的过程，前提在于你要能忍能干能拼，还要具有敏锐的嗅觉感知前方潮流变化。如：今年大数据，人工智能比较火……(相对表示就是 Python 比较火）之前...

2019-05-09 19:54:09 679 2

转载 linux top iotop 工具参数及输出详解

top在系统维护的过程中，随时可能有需要查看 CPU 使用率，并根据相应信息分析系统状况的需要。在 linux中，可以通过 top 命令来查看 CPU 使用状况。运行 top 命令后，CPU 使用状态会以全屏的方式显示，并且会处在对话的模式 — 用基于 top 的命令，可以控制显示方式等等。退出 top 的命令为 q （在 top 运行中敲 q 键一次）。在命令行中输入 “top” 即可启...

2019-05-09 19:51:06 3113

转载 Linux下 Load Average 解释以及负载等基础知识

什么是load averagelinux系统中的Load对当前CPU工作量的度量 (WikiPedia: the system load is a measure of the amount of work that a computer system is doing)。也有简单的说是进程队列的长度。Load Average 就是一段时间 (1 分钟、5分钟、15分钟) 内平均 Load ...

2019-05-09 19:41:41 905

原创 ranger操作介绍

https://cwiki.apache.org/confluence/display/RANGER/Apache+Ranger+0.5+-+User+Guide策略HDFS添加HDFS策略您可以从HDFS策略列表页面为特定服务添加新策略。添加时，该策略应列在下表中。您可以通过提供的搜索过滤器搜索策略。第1步：单击列表页面上的“添加新策略”按钮第2步：创建政策表格...

2019-05-09 10:11:15 3800

翻译 ranger相关文章

ranger实施文章：讨论有关HDFS的Ranger政策（HDFS 策略实施）https://pierrevillard.com/category/apache-ranger/关于Ranger和HDFS的最佳实践https://fr.hortonworks.com/blog/best-practices-in-hdfs-authorization-with-apache-rang...

2019-05-08 17:19:41 154

原创 hadoop生态组件——ranger（hdfs,hive,spark）相关文章

ranger实施文章：讨论有关HDFS的Ranger政策（HDFS 策略实施）https://pierrevillard.com/category/apache-ranger/关于Ranger和HDFS的最佳实践https://fr.hortonworks.com/blog/best-practices-in-hdfs-authorization-with-apache-rang...

2019-05-08 16:46:52 395

转载 Ranger、LLAP管理SparkSQL权限配置(hiveserver2)

转载：https://zhuanlan.zhihu.com/p/35647068概述之前一直使用ranger管理hive的用户权限，现在系统要集成SparkSQL(thriftserver)，但是在ranger下并没有SparkSQL的相关的插件，通过搜集HORTONWORKS相关资料，可以给SparkSQL配置LLAP（关于LLAP的更多细节，查看https://cwiki.apache...

2019-05-08 16:29:45 3345

转载 spark plugin that support for spark-authorizer(spark-shell, pyspark, or spark-submit) by ranger

源自：https://github.com/yaooqinn/spark-authorizerSpark AuthorizerSpark Authorizerprovides you withSQL Standard Based AuthorizationforApache Spark™as same asSQL Standard Based Hive Authoriza...

2019-05-08 16:26:34 1224

翻译 DGI Hive Prohibition Policy（Ranger）

介绍Apache Ranger为Enterprise Hadoop生态系统提供集中安全性，包括细粒度访问控制和集中审计。在ranger-0.5版本中，Apache Ranger引入了堆栈模型，使新组件更容易使用Apache Ranger授权和审计。此外，为了能够扩展/调整Apache Ranger以满足新的或特定于部署的授权要求，堆栈模型提供了诸如上下文丰富和策略条件之类的钩子。在本文档中...

2019-05-08 15:39:22 352

转载 Ranger和HDFS的最佳实践

参考：https://pierrevillard.com/category/apache-ranger/ https://fr.hortonworks.com/blog/best-practices-in-hdfs-authorization-with-apache-ranger/

2019-05-07 17:30:47 808

翻译在Ranger policies中Deny-conditions 和excludes介绍

1简介Apache Ranger为Enterprise Hadoop生态系统提供集中安全性，包括细粒度访问控制和集中审计。当前版本的Apache Ranger，0.5支持授权策略，允许在满足指定条件时访问资源 - 条件包括用户/组，访问类型和自定义条件。但是，该模型不支持可以明确拒绝访问资源的策略。此外，该模型不支持允许（或拒绝）访问更广泛的组（如员工，每个人）的策略，但不包括可能属于更广泛组...

2019-05-07 17:27:27 1000 1

翻译 ranger中启用“deny” policies(hdfs、hive等)

如果没有“拒绝”策略，Ranger策略和HDFS ACL之间最宽松的访问将用于授予对资源的访问权限。换句话说，除非您明确定义了适用于所访问资源的“拒绝”策略，否则将始终考虑HDFS ACL进行授权。启用HDFS“拒绝”策略默认情况下，Ranger UI中不提供“拒绝”策略。这主要是因为这个概念很难理解，使用“拒绝”政策时，事情很快就会变得一团糟。此外，对于大多数用户，永远不会使用此功能。使...

2019-05-07 17:17:06 527

翻译 Ranger策略如何为HDFS工作（权限检查顺序）

为了确保HDP环境的安全性，我们建议所有客户实施Kerberos，Apache Knox和Apache Ranger。Apache Ranger为HDFS提供联合授权模型。用于HDFS的Ranger插件检查Ranger策略，如果存在策略，则授予用户访问权限。如果Ranger中不存在策略，则Ranger将默认使用HDFS（POSIX或HDFS ACL）中的本机权限模型。此联合模型适用于Ra...

2019-05-07 17:04:29 1331

转载 linux使用nmon监控、分析系统性能

原文：https://blog.csdn.net/russ44/article/details/53081448一、概述nmon是一种在AIX与各种Linux操作系统上广泛使用的监控与分析工具，相对于其它一些系统资源监控工具来说，nmon所记录的信息是比较全面的，它能在系统运行过程中实时地捕捉系统资源的使用情况，并且能输出结果到文件中，然后通过nmon_analyzer工具产生数据文件与...

2019-05-07 14:32:13 234

转载 Hive Query生命周期--钩子函数篇

前言无论Hive Cli还是HiveServer2，一个HQl语句都要经过Driver进行解析和执行，粗略如下图：Driver处理的流程如下：HQL解析(生成AST语法树)=>语法分析(得到QueryBlock)=>生成逻辑执行计划(Operator)=>逻辑优化(Logical Optimizer Operator)=>生成物理执行计划(T...

2019-04-19 16:05:49 787

原创 YARN和yarn中运行运算程序的示例

YARN是一个资源调度平台，负责为运算程序提供服务器运算资源。相当于一个分布式的操作系统，而mapReduce相当于一个运行在其上的应用程序。YARN的重要概念： 1、不知到程序运行的内部机制 2、只提供资源调度（应用程序向其请求资源，分配资源） 3、管理角色，resourcemanager，负责程序资源的调度，监控程序。 4、nodemanager为应用程序分配资源 ...

2018-03-14 21:26:28 523

原创 maptask的并行度

maptask的并行度决定map阶段的任务处理并发数量。进而影响到整个job的处理速度。maptask的并行度是不是越多越好？并行度又是如何决定的？先说maptask的并行度是如何决定的.一个job的map阶段的并行度由客户端提交job时决定。而客户端对map阶段并行度规划的逻辑为：将待处理的数据进行逻辑切片（即按照一个特定切片的大小，将待处理的数据划分为多个split），然后每一个spilt分配...

2018-03-13 22:51:09 1025

原创 HADOOP的mapReduce流程解析

1、首先第一个启动的是MRAppMasterk进程，它根据提交的job信息，计算出需要启动mapTask实例的数量，然后向集群申请对应的机器启动相应数量的maptask进程。2、mapTask负责map阶段的数据处理。mapTask进程启动之后，根据给定的数据切片范围进行处理。主要流程如下：i)根据客户定义的inputformat来获取RecodReader读取数据，形成输入KV对。 ...

2018-03-13 22:06:15 234

原创 Java中volitile关键字

修饰变量，每次取值都是直接到内存去读取。编译器不能对它进行缓存等优化操作。都用于对原子性操作要求不强，要求内存可见的地方。比如只有一个线程对其进行修改，多个线程读取该变量。

2017-11-23 20:54:38 767

转载 expect用法

expect用法1. ［#!/usr/bin/expect］这一行告诉操作系统脚本里的代码使用那一个shell来执行。这里的expect其实和linux下的bash、windows下的cmd是一类东西。注意：这一行需要在脚本的第一行。 2. ［set timeout 30］基本上认识英文的都知道这是设置超时时间的，现在你只要记住他的计时单位是：秒。timeout

2017-07-16 10:30:14 333

转载更改centos7的启动模式

发现用之前的方式无法修改默认启动为命令行模式。之前的方法：修改/etc/inittab文件中的 id:3:initdefault ，将3改为5 ，重新启动系统；一番研究，centos7的修改方法变了，记录如下，仅供后期参考：一、命令模式和桌面模式切换，需重启 1、查看/etc/inittab文件 2、由文件说明可以看出，cento

2017-03-05 09:56:15 506

原创安装vim及插件

1、先安装vim，若已安装，这在~文件夹下新建'.vimrc'文件，在该文件配置vim的插件2、再安装vundle插件，方法:git下来vundle文件夹放置在~/.vim/bundle/下（vundle用来管理vim插件）方法一、可以直接在.vimrc文件中的"命令模式"下输入BundleInstall方法二、如果方法一不成功，可以将插件通过命令“git clone http:

2017-03-05 09:51:56 354

原创 CentOS7安装scrapy

安装好Python 2.7 and Python 3.3 or above的前提上。官网：https://scrapy.org/ 1、wget https://bootstrap.pypa.io/get-pip.py 2、sudo python2.7 get-pip.py3、sudo pip install virtualenv4、pip install scrapy

2017-03-05 09:46:27 413

转载 CentOS7安装python3详细步骤

不要轻易更新python版本，不然有可能会导致linux很多命令不兼容新的版本1、yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel（虚拟机有安装1的，请从第二步开始）2、wget http://www.python.org/ftp/python/3.2.3/P

2017-03-05 09:42:43 6683 1

原创 Centos7安装JDK

1、上传JDK2、添加执行权限chmod u+x jdk-6u45-linux-i586.bin3、解压./jdk-6u45-linux-i586.bin4、mkdir /usr/java5、mv jdk1.6.0_45/ /usr/java/6、将java添加到环境变量 vim /etc/profile 在文件的末尾添加如下内容 expo

2017-03-05 09:38:16 221

转载在linux中安装mysql

通过yum安装(官网有详细介绍)：https://dev.mysql.com/doc/mysql-installation-excerpt/5.6/en/linux-installation-yum-repo.html mysql启动报错解决方案：mysql启动报 ExecStart=/etc/rc.d/init.d/mysqld start (code=exited, statu

2017-03-05 09:24:32 302

转载 Linux文本编辑器vim

【1】vivi编辑器是所有Unix及Linux系统下标准的编辑器，它的强大不逊色于任何最新的文本编辑器，这里只是简单地介绍一下它的用法和一小部分指令。由于对Unix及Linux系统的任何版本，vi编辑器是完全相同的，因此您可以在其他任何介绍vi的地方进一步了解它。Vi也是Linux中最基本的文本编辑器，学会它后，您将在Linux的世界里畅行无阻。Lisp emacs【

2017-03-05 00:25:00 457

转载 Linux的计划任务（at命令和cron工具）

【1】at在windows系统中，windows提供了计划任务这一功能，在控制面板-性能与维护-任务计划，它的功能就是安排自动运行的任务。通过'添加任务计划'的一步步引导，则可建立一个定时执行的任务。在linux系统中你可能已经发现了为什么系统常常会自动的进行一些任务？这些任务到底是谁在支配他们工作的？在linux系统如果你想要让自己设计的备份程序可以自动在某个时间点开始在系统

2017-03-05 00:23:28 2352

TBSOD的博客