Junjie_M-CSDN博客

转载 Linux 里面的文件操作权限说明

0 - 没有权限 1 - 执行权限 2 - 书写权限 3 - 书写执行权限 4 - 读权限 5 - 读和执行权限 6 - 读和书写权限 7 - 读,写入,执行权限文件组 1 - 全部 2 - 组3 - 其他的例子：777 - 任何一个能读能写能执行权限 700 - 所有者,可以读写,和执行 755 - 所有者,可以读写,和执行

2015-04-16 15:51:02 706

转载使用Hadoop和Hive命令行

hadoop解压 gz 文件到文本文件$ hadoop fs -text /hdfs_path/compressed_file.gz | hadoop fs -put - /tmp/uncompressed-file.txt解压本地文件 gz 文件并上传到 hdfs$ gunzip -c filename.txt.gz | hadoop fs -put - /tmp/

2015-04-16 10:54:14 2148

转载 CDH5 Apache Spark初体验

Apache Spark是一个通用的分布式计算框架，为大规模数据处理提供了一个高效、可扩展的计算引擎。由于性能、接口、功能的那个多种原因，Spark正处于“风头浪尖”，热度也超过了MapReduce。在这片博文中，你将学习到如何在CDH5上使用Maven编译、运行一个Spark应用程序。预备知识：Scala + Maven完整的代码可以从github地址 h

2015-04-08 09:21:09 1977

转载 YARN动态资源池配置案例

EDH作为统一的企业级数据中心，往往是一个多租户的应用环境。在该环境中，不同用户会同时使用集群资源。如何保证用户数据不被任意篡改？如何保证任务的权限控制 (例如用户A不能任性地取消用户B的任务)？如何确保用户资源使用不超过他们的配额？1. 开启HDFS权限检查 (默认是开启的)"Check HDFS Permissions"选中2.

2015-04-08 09:17:03 5886

转载 linux性能分析及调优

cpu 性能瓶颈调优可调性能参数、内存性能瓶颈可调性能参数(操作系统设置swap的目的、在写程序时、如何使自己的内存不被换出swap，常驻物理内存)、磁盘I/O可调性能参数(如何判断磁盘IO瓶颈，使用iostat -x 1)、网络可调性能参数第一节：cpu 性能瓶颈计算机中，cpu是最重要的一个子系统，负责所有计算任务；基于摩尔定律的发展，cpu是发展最快的一个硬件，所以

2015-03-30 16:20:07 562

转载 Kerberos认证流程详解

原文 http://blog.csdn.net/jewes/article/details/20792021Kerberos是诞生于上个世纪90年代的计算机认证协议，被广泛应用于各大操作系统和Hadoop生态系统中。了解Kerberos认证的流程将有助于解决Hadoop集群中的安全配置过程中的问题。为此，本文根据最近阅读的一些材料，详细介绍Kerberos认证流程。欢迎斧正！

2015-03-17 16:56:45 1264

转载 linux下查看所有用户及所有用户组

groups 查看当前登录用户的组内成员groups gliethttp 查看gliethttp用户所在的组,以及组内成员whoami 查看当前登录用户名/etc/group文件包含所有组/etc/shadow和/etc/passwd系统存在的所有用户名1、/etc/group 解说；/etc/group 文件是用户组的配置文件，内容包括用户和用户组

2015-02-27 13:47:39 808

Linux 系统是一个多用户多任务的分时操作系统，任何一个要使用系统资源的用户，都必须首先向系统管理员申请一个账号，然后以这个账号的身份进入系统。用户的账号一方面可以帮助系统管理员对使用系统的用户进行跟踪，并控制他们对系统资源的访问；另一方面也可以帮助用户组织文件，并为用户提供安全性保护。每个用户账号都拥有一个惟一的用户名和各自的口令。用户在登录时键入正确的用户名和口令后，就能够进入系统和自己的主

2015-02-27 13:41:27 1040

转载 Fair Scheduler

与Capacity Scheduler类似，Fair Scheduler以队列为单位划分资源，每个队列可设定一定比例的资源最低保证和使用上限，同时，每个用户也可设定一定的资源使用上限以防止资源滥用；当一个队列的资源有剩余时，可暂时将剩余的资源共享给其他队列。Fair Scheduler与Capacity Scheduler不同之处主要体现在以下几个方面：资源公平共享：在每个队列中，Fair

2015-02-10 11:00:44 1782

转载 Hadoop 2.0中Capacity Scheduler与Fair Scheduler对比

随着Hadoop版本的演化，Fair Scheduler和Capacity Scheduler的功能越来越完善，包括层级队列组织方式、资源抢占、批量调度等，也正因如此，两个调度器同质化越来越严重，目前看了，两个调度器从设计到支持的特性等方面非常接近，而由于Fair Scheduler支持多种调度策略，现在看来，可以认为Fair Scheduler具备了Capacity Scheduler具有的

2015-02-10 10:40:36 1940

转载 LDAP 中DN、CN、DC的含义

很多人虽然会使用dsadd等命令添加用户，但是dsadd的命令说明里面并没有涉及到dc,cn,ou的含义，很多人都不明白，这里是微软的技术支持人员的回信，希望对大家有帮助。 CN, OU, DC 都是 LDAP 连接服务器的端字符串中的区别名称（DN, distinguished name） LDAP连接服务器的连接字串格式为：ldap://servername/DN

2015-02-03 14:24:33 19848

转载 Hadoop集群部署权限总结

这是一篇总结的文章，主要介绍 Hadoop 集群快速部署权限的步骤以及一些注意事项，包括 Hadoop 各个组件集成 kerberos、openldap 和 sentry 的过程。如果你想了解详细的过程，请参考本博客中其他的文章。1. 开始之前hadoop 集群一共有三个节点，每个节点的 ip、hostname、角色如下：192.168.56.121 cdh1 NameNo

2015-02-03 12:39:59 1619

转载 CDH 5.2中Impala认证集成LDAP和Kerberos

这是一篇翻译的文章，原文为 New in CDH 5.2: Impala Authentication with LDAP and Kerberos。由于翻译水平有限，难免会一些翻译不准确的地方，欢迎指正！Impala 认证现在可以通过 LDAP 和 Kerberos 联合使用来解决。下文来解释为什么和怎样解决。Impala，是基于 Apache Hadoop 的一个开源的

2015-02-03 12:39:18 2122

转载 Impala和Hive集成Sentry

本文主要记录 CDH 5.2 Hadoop 集群中配置 Impala 和 Hive 集成 Sentry 的过程，包括 Sentry 的安装、配置以及和 Impala、Hive 集成后的测试。使用 Sentry 来管理集群的权限，需要先在集群上配置好 Kerberos。关于 Hadoop 集群上配置 kerberos 以及 ldap 的过程请参考本博客以下文章：HDFS配置K

2015-02-03 12:38:22 5707

转载 Hadoop配置LDAP集成Kerberos

本文主要记录 cdh hadoop 集群集成 ldap 的过程，这里 ldap 安装的是 OpenLDAP 。LDAP 用来做账号管理，Kerberos作为认证。授权一般来说是由应用来决定的，通过在 LDAP 数据库中配置一些属性可以让应用程序来进行授权判断。关于 Kerberos 的安装和 HDFS 配置 kerberos 认证，请参考 HDFS配置kerberos认证。参考使

2015-02-03 12:37:45 4885

转载 Zookeeper配置Kerberos认证

关于 Hadoop 集群上配置 kerberos 以及 ldap 的过程请参考本博客以下文章：HDFS配置Kerberos认证YARN配置Kerberos认证Hive配置Kerberos认证Impala配置Kerberos认证Hadoop配置LDAP集成Kerberos参考使用yum安装CDH Hadoop集群安装 hadoop 集群，集群包括三个节点，每个节点的ip、主机名和

2015-02-03 12:36:28 14040 2

转载 Impala配置Kerberos认证

关于 Kerberos 的安装和 HDFS 配置 kerberos 认证，请参考 HDFS配置kerberos认证。关于 Kerberos 的安装和 YARN 配置 kerberos 认证，请参考 YARN配置kerberos认证。关于 Kerberos 的安装和 Hive 配置 kerberos 认证，请参考 Hive配置kerberos认证。请先完成 HDFS 、Y

2015-02-03 12:35:47 5815

转载 Hive配置Kerberos认证

关于 Kerberos 的安装和 HDFS 配置 kerberos 认证，请参考 HDFS配置kerberos认证。关于 Kerberos 的安装和 YARN 配置 kerberos 认证，请参考 YARN配置kerberos认证。请先完成 HDFS 和 YARN 配置 Kerberos 认证，再来配置 Hive 集成 Kerberos 认证！参考使用yum安装

2015-02-03 12:34:57 14829 1

转载 YARN配置Kerberos认证

关于 Kerberos 的安装和 HDFS 配置 kerberos 认证，请参考 HDFS配置kerberos认证。请先完成 HDFS 配置 Kerberos 认证，再来配置 YARN 集成 Kerberos 认证！参考使用yum安装CDH Hadoop集群安装 hadoop 集群，集群包括三个节点，每个节点的ip、主机名和部署的组件分配如下：192.168.56

2015-02-03 12:33:09 4080

转载 HDFS配置Kerberos认证

本文转自：http://blog.javachen.com/本文主要记录 CDH Hadoop 集群上配置 HDFS 集成 Kerberos 的过程，包括 Kerberos 的安装和 Hadoop 相关配置修改说明。注意：下面第一、二部分内容，摘抄自《Hadoop的kerberos的实践部署》，主要是为了对 Hadoop 的认证机制和 Kerberos 认证协议做个

2015-02-03 12:30:58 1649

转载 linux下使用yum安装mysql

linux下使用yum安装mysql1、安装查看有没有安装过： yum list installed mysql* rpm -qa | grep mysql*查看有没有安装包： yum list mysql*安装mysql客户端： yum install mysq

2015-01-28 18:43:02 468

原创 Flume-NG指令集和第一个简单的案例

# flume-ng指令commands: help display this help text agent run a Flume agent avro-client run an avro Flume client version

2015-01-23 11:39:14 3083

转载 SolrCloud简介

一.简介SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署，例如单机方式，多机Master-Slaver方式。二.特色功能SolrCloud有几个特色功能：集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上

2015-01-23 09:19:48 514

转载 Flume NG：Flume 发展史上的第一次革命

背景Cloudera 开发的分布式日志收集系统 Flume，是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到 hdfs 中。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来

2015-01-23 09:01:42 526

翻译【配置CDH和管理服务】关闭DataNode前HDFS的调优

配置CDH和管理服务关闭DataNode前HDFS的调优角色要求：配置员、集群管理员、完全管理员当一个DataNode关闭，NameNode确保每一个DataNode中的每一个块根据复制系数（the replication factor）跨集群仍然是可用的。这个过程涉及到DataNode间小批次的块复制。在这种情况下，一个DataNode有成千上万个块，关闭后集群间还原备份数可能

2015-01-16 11:06:47 6332

转载 Hadoop 常见问题处理汇总

P1：ssh连接机器，出现ssh:NODE_166:Temporary failure in name resolution解决办法：检查/etc/hosts文件中定义了主机名和IP地址对应关系是否正确。P2： ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io

2015-01-15 19:59:51 1946

转载 hadoop的dfs.replication和dfs setrep

首先 dfs.replication这个参数是个client参数，即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了，设置太多也没什么用。一个文件，上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数，对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1

2015-01-15 19:50:06 3361

转载 HDFS的dfs.replication不同验证

集群只有三个Datanode，hadoop系统replication=4时，会出现什么情况？文件块只有三份，hadoop fsck -locations 如图所示：对于上传文件到hdfs上时，当时hadoop的副本系数是几，这个文件的块数副本数就会有几份，无论以后你怎么更改系统副本系统，这个文件的副本数都不会改变，也就说上传到分布式系统上的文件副本数由当时的系统副

2015-01-15 17:13:30 2635

转载 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制

第一部分：当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构： ${ dfs.name.dir}/current /VERSION

2015-01-15 13:25:01 1988

转载 Hadoop集群节点的动态增加与删除

Hadoop集群节点的动态增加1. 安装配置节点具体过程参考《Hadoop集群实践之 (1) Hadoop(HDFS)搭建》2. 在配置过程中需要在所有的Hadoop服务器上更新以下三项配置$ sudo vim /etc/hadoop/conf/slaves1hadoop-node-12

2015-01-15 12:32:08 841

转载 Impala各版本新特性

自0.3之后的重点新特性1.0· 支持ALTER TABLE。· 支持通过Hints指定join策略。支持的Hints：o [broadcast]：broadcast join策略（将小表放到所有节点上与大表进行分片join）o [shuffle]： partitionedjoin策略（分片join）

2015-01-13 17:42:58 9541

原创 Cloudera Manager的备份和灾难恢复

注：只有Cloudera Manager企业版才有Cloudera Manager的备份和灾难恢复功能一、概述Cloudera Manager提供了一个集成的、易于使用的管理解决方案，使数据保护在Hadoop的平台。Cloudera Manager提供了丰富的功能旨在复制存储在HDFS数据和通过Hive跨数据中心的灾难恢复场景。当关键数据存储在HDFS，Cloudera Mana

2015-01-13 10:29:11 7526 2

原创 Impala一些注意点

（1）数据类型（Data Types）使用数字(Numeric)类型(不是字符串)l 尽可能避免字符串类型l 字符串 =>更高的内存消耗、更多的存储空间、更慢的计算速度 Decimal vs Float / Doublel Decimal更容易使用l 目前不能使用Decimal作为分区键或UDFs 只使用字符串的情况l HBaseRow

2015-01-12 17:14:39 2752

原创离线升级Cloudera Manager(CM)和Cloudera Data Hub(CDH)

升级Cloudera Manager(CM)管理界面点击“主机”，点击“重新运行主机升级向导”，添加Httpd的url路径，如：http://192.168.1.201/cm/5.2.0。升级Cloudera Data Hub(CDH)管理界面点击右上角像礼物包一样的图标，在右侧点击“编辑设置”，在“远程Parcel存储库URL”中添加http://192.168.1.201/

2015-01-12 12:38:34 3630

原创重装CDH遇到的几个问题

1、HDFS启动失败原因：dfs目录下数据版本是老的。操作：删除dfs目录，重新初始化新的目录。2、Hbase Master启动失败原因：zookper 链接信息过期了。操作：进入zookeeper控制台：.../zookeeper/bin/zkCli.sh，查看目录：ls /，然后删除hbase目录：rmr /hbase，重启zk和hbase。

2015-01-12 12:30:28 1496

原创卸载Cloudera Manager(CM)和Cloudera Data Hub(CDH)

1、先在Manage管理端移除所有服务。2、删除Manager Server在Manager节点运行$ sudo /usr/share/cmf/uninstall-cloudera-manager.sh如果没有该脚本，则可以手动删除，先停止服务：sudo service cloudera-scm-server stop sudo service cloud

2015-01-12 12:24:12 1852

原创手动安装Cloudera Manager

手动安装前需要先开启HTTPD服务执行/usr/sbin/apachectl start，开启后可以通过url访问/var/www/html下的目录。1、下载cloudera manager的repo资源下载 http://archive-primary.cloudera.com/cm5/redhat/6/x86_64/cm/5.2.1/RPMS/x86_64/ 下的资源到 /

2015-01-12 11:44:52 705

转载手工释放linux内存——/proc/sys/vm/drop_cache

linux的内存查看：[root@localhost 0.1.0]# free -m total used free shared buffers cachedMem: 4032 694 3337 0 0

2015-01-12 11:32:10 435

转载 HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件，如果是从某个datanode开始上传文件，会导致上传的数据优先写满当前datanode的磁盘，这对于运行分布式程序是非常不利的。解决的办法：1、从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点（直接从非datanode的namenode上传也可以，但是这样不太好，会增加namenode的负担，并且时间长了会让na

2015-01-09 16:36:44 1457

转载 Impala的中文翻译链接

Impala的中文翻译链接http://my.oschina.net/weiqingbin/blog?catalog=423691

2015-01-08 11:49:22 787

空空如也

空空如也