2015年01月_Junjie_M

转载 linux下使用yum安装mysql

linux下使用yum安装mysql1、安装查看有没有安装过： yum list installed mysql* rpm -qa | grep mysql*查看有没有安装包： yum list mysql*安装mysql客户端： yum install mysq

2015-01-28 18:43:02 449

原创 Flume-NG指令集和第一个简单的案例

# flume-ng指令commands: help display this help text agent run a Flume agent avro-client run an avro Flume client version

2015-01-23 11:39:14 3048

转载 SolrCloud简介

一.简介SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署，例如单机方式，多机Master-Slaver方式。二.特色功能SolrCloud有几个特色功能：集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上

2015-01-23 09:19:48 493

转载 Flume NG：Flume 发展史上的第一次革命

背景Cloudera 开发的分布式日志收集系统 Flume，是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到 hdfs 中。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来

2015-01-23 09:01:42 503

翻译【配置CDH和管理服务】关闭DataNode前HDFS的调优

配置CDH和管理服务关闭DataNode前HDFS的调优角色要求：配置员、集群管理员、完全管理员当一个DataNode关闭，NameNode确保每一个DataNode中的每一个块根据复制系数（the replication factor）跨集群仍然是可用的。这个过程涉及到DataNode间小批次的块复制。在这种情况下，一个DataNode有成千上万个块，关闭后集群间还原备份数可能

2015-01-16 11:06:47 6279

转载 Hadoop 常见问题处理汇总

P1：ssh连接机器，出现ssh:NODE_166:Temporary failure in name resolution解决办法：检查/etc/hosts文件中定义了主机名和IP地址对应关系是否正确。P2： ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io

2015-01-15 19:59:51 1871

转载 hadoop的dfs.replication和dfs setrep

首先 dfs.replication这个参数是个client参数，即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了，设置太多也没什么用。一个文件，上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数，对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1

2015-01-15 19:50:06 3320

转载 HDFS的dfs.replication不同验证

集群只有三个Datanode，hadoop系统replication=4时，会出现什么情况？文件块只有三份，hadoop fsck -locations 如图所示：对于上传文件到hdfs上时，当时hadoop的副本系数是几，这个文件的块数副本数就会有几份，无论以后你怎么更改系统副本系统，这个文件的副本数都不会改变，也就说上传到分布式系统上的文件副本数由当时的系统副

2015-01-15 17:13:30 2597

转载 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制

第一部分：当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构： ${ dfs.name.dir}/current /VERSION

2015-01-15 13:25:01 1915

转载 Hadoop集群节点的动态增加与删除

Hadoop集群节点的动态增加1. 安装配置节点具体过程参考《Hadoop集群实践之 (1) Hadoop(HDFS)搭建》2. 在配置过程中需要在所有的Hadoop服务器上更新以下三项配置$ sudo vim /etc/hadoop/conf/slaves1hadoop-node-12

2015-01-15 12:32:08 817

转载 Impala各版本新特性

自0.3之后的重点新特性1.0· 支持ALTER TABLE。· 支持通过Hints指定join策略。支持的Hints：o [broadcast]：broadcast join策略（将小表放到所有节点上与大表进行分片join）o [shuffle]： partitionedjoin策略（分片join）

2015-01-13 17:42:58 9461

原创 Cloudera Manager的备份和灾难恢复

注：只有Cloudera Manager企业版才有Cloudera Manager的备份和灾难恢复功能一、概述Cloudera Manager提供了一个集成的、易于使用的管理解决方案，使数据保护在Hadoop的平台。Cloudera Manager提供了丰富的功能旨在复制存储在HDFS数据和通过Hive跨数据中心的灾难恢复场景。当关键数据存储在HDFS，Cloudera Mana

2015-01-13 10:29:11 7419 2

原创 Impala一些注意点

（1）数据类型（Data Types）使用数字(Numeric)类型(不是字符串)l 尽可能避免字符串类型l 字符串 =>更高的内存消耗、更多的存储空间、更慢的计算速度 Decimal vs Float / Doublel Decimal更容易使用l 目前不能使用Decimal作为分区键或UDFs 只使用字符串的情况l HBaseRow

2015-01-12 17:14:39 2687

原创离线升级Cloudera Manager(CM)和Cloudera Data Hub(CDH)

升级Cloudera Manager(CM)管理界面点击“主机”，点击“重新运行主机升级向导”，添加Httpd的url路径，如：http://192.168.1.201/cm/5.2.0。升级Cloudera Data Hub(CDH)管理界面点击右上角像礼物包一样的图标，在右侧点击“编辑设置”，在“远程Parcel存储库URL”中添加http://192.168.1.201/

2015-01-12 12:38:34 3600

原创重装CDH遇到的几个问题

1、HDFS启动失败原因：dfs目录下数据版本是老的。操作：删除dfs目录，重新初始化新的目录。2、Hbase Master启动失败原因：zookper 链接信息过期了。操作：进入zookeeper控制台：.../zookeeper/bin/zkCli.sh，查看目录：ls /，然后删除hbase目录：rmr /hbase，重启zk和hbase。

2015-01-12 12:30:28 1465

原创卸载Cloudera Manager(CM)和Cloudera Data Hub(CDH)

1、先在Manage管理端移除所有服务。2、删除Manager Server在Manager节点运行$ sudo /usr/share/cmf/uninstall-cloudera-manager.sh如果没有该脚本，则可以手动删除，先停止服务：sudo service cloudera-scm-server stop sudo service cloud

2015-01-12 12:24:12 1812

原创手动安装Cloudera Manager

手动安装前需要先开启HTTPD服务执行/usr/sbin/apachectl start，开启后可以通过url访问/var/www/html下的目录。1、下载cloudera manager的repo资源下载 http://archive-primary.cloudera.com/cm5/redhat/6/x86_64/cm/5.2.1/RPMS/x86_64/ 下的资源到 /

2015-01-12 11:44:52 678

转载手工释放linux内存——/proc/sys/vm/drop_cache

linux的内存查看：[root@localhost 0.1.0]# free -m total used free shared buffers cachedMem: 4032 694 3337 0 0

2015-01-12 11:32:10 415

转载 HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件，如果是从某个datanode开始上传文件，会导致上传的数据优先写满当前datanode的磁盘，这对于运行分布式程序是非常不利的。解决的办法：1、从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点（直接从非datanode的namenode上传也可以，但是这样不太好，会增加namenode的负担，并且时间长了会让na

2015-01-09 16:36:44 1423

转载 Impala的中文翻译链接

Impala的中文翻译链接http://my.oschina.net/weiqingbin/blog?catalog=423691

2015-01-08 11:49:22 753

原创 Impala中变相实现删除和更新

通用的删除SQL语句：delete from ODS_DPFM02 a where exists ( select 1 from ODS_DPFM18 d where a.DM02ACCT = d.DM18ACCT and a.DM02ACCS = d.DM18ACCS);通用的更新SQL语句：update ODS_DPFM02 a set a.D

2015-01-07 21:18:12 12051

原创 Impala调试注意事项

1、压缩（默认是Snappy）是否压缩需要根据具体场景而定，如果需要压缩推荐使用Snappy。压缩的好处在于HDFS上存储更少，以及在执行broadcast的时候网络传输更少的数据，但要解压缩需要带来额外的CPU开销。如果执行的SQL本身是CPU密集型的，压缩未必合适。不使用压缩：set compression_codec=none;使用GZIP压缩：set compressi

2015-01-07 20:31:15 1937

转载 HDFS中的集中缓存 (Centralized Cache Management in HDFS)

集中缓存有两层概念：第一层是缓存，即为存储在HDFS中文件提供缓存的机制，从而可以加速DFSClient对文件的读操作；第二层概念是集中式的管理，传统的HDFS缓存依赖了OS本身的缓存机制，但是这种缓存机制不能被管理员或中央节点进行管理，不能自由的控制哪些文件缓存，哪些文件不进行缓存；集中式的管理可以提高了对缓存内存的可控性；HDFS中集中缓存架构如下所示：

2015-01-07 16:25:28 592

a118170653的专栏