自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 linux下使用yum安装mysql

linux下使用yum安装mysql1、安装查看有没有安装过:          yum list installed mysql*          rpm -qa | grep mysql*查看有没有安装包:          yum list mysql*安装mysql客户端:          yum install mysq

2015-01-28 18:43:02 449

原创 Flume-NG指令集和第一个简单的案例

# flume-ng指令commands:  help                      display this help text  agent                     run a Flume agent  avro-client               run an avro Flume client  version            

2015-01-23 11:39:14 3048

转载 SolrCloud简介

一.简介SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。二.特色功能SolrCloud有几个特色功能:集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上

2015-01-23 09:19:48 493

转载 Flume NG:Flume 发展史上的第一次革命

背景Cloudera 开发的分布式日志收集系统 Flume,是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到 hdfs 中。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来

2015-01-23 09:01:42 503

翻译 【配置CDH和管理服务】关闭DataNode前HDFS的调优

配置CDH和管理服务关闭DataNode前HDFS的调优角色要求:配置员、集群管理员、完全管理员 当一个DataNode关闭,NameNode确保每一个DataNode中的每一个块根据复制系数(the replication factor)跨集群仍然是可用的。这个过程涉及到DataNode间小批次的块复制。在这种情况下,一个DataNode有成千上万个块,关闭后集群间还原备份数可能

2015-01-16 11:06:47 6279

转载 Hadoop 常见问题处理汇总

P1:ssh连接机器,出现ssh:NODE_166:Temporary failure in name resolution解决办法:检查/etc/hosts文件中定义了主机名和IP地址对应关系是否正确。P2: ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io

2015-01-15 19:59:51 1871

转载 hadoop的dfs.replication和dfs setrep

首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1

2015-01-15 19:50:06 3320

转载 HDFS的dfs.replication不同验证

集群只有三个Datanode,hadoop系统replication=4时,会出现什么情况?文件块只有三份,hadoop fsck -locations 如图所示:       对于上传文件到hdfs上时,当时hadoop的副本系数是几,这个文件的块数副本数就会有几份,无论以后你怎么更改系统副本系统,这个文件的副本数都不会改变,也就说上传到分布式系统上的文件副本数由当时的系统副

2015-01-15 17:13:30 2597

转载 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制

第一部分:当前HDFS架构详尽分析    HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构:            ${ dfs.name.dir}/current /VERSION                  

2015-01-15 13:25:01 1915

转载 Hadoop集群节点的动态增加与删除

Hadoop集群节点的动态增加1. 安装配置节点具体过程参考 《Hadoop集群实践 之 (1) Hadoop(HDFS)搭建》2. 在配置过程中需要在所有的Hadoop服务器上更新以下三项配置$ sudo vim /etc/hadoop/conf/slaves1hadoop-node-12

2015-01-15 12:32:08 817

转载 Impala各版本新特性

自0.3之后的重点新特性1.0·        支持ALTER TABLE。·        支持通过Hints指定join策略。支持的Hints:o    [broadcast]:broadcast join策略(将小表放到所有节点上与大表进行分片join)o    [shuffle]:   partitionedjoin策略(分片join)

2015-01-13 17:42:58 9461

原创 Cloudera Manager的备份和灾难恢复

注:只有Cloudera Manager企业版才有Cloudera Manager的备份和灾难恢复功能一、   概述Cloudera Manager提供了一个集成的、易于使用的管理解决方案,使数据保护在Hadoop的平台。Cloudera Manager提供了丰富的功能旨在复制存储在HDFS数据和通过Hive跨数据中心的灾难恢复场景。当关键数据存储在HDFS,Cloudera Mana

2015-01-13 10:29:11 7419 2

原创 Impala一些注意点

(1)数据类型(Data Types)使用数字(Numeric)类型(不是字符串)l   尽可能避免字符串类型l   字符串 =>更高的内存消耗、更多的存储空间、更慢的计算速度 Decimal vs Float / Doublel   Decimal更容易使用l   目前不能使用Decimal作为分区键或UDFs 只使用字符串的情况l  HBaseRow

2015-01-12 17:14:39 2687

原创 离线升级Cloudera Manager(CM)和Cloudera Data Hub(CDH)

升级Cloudera Manager(CM)管理界面点击“主机”,点击“重新运行主机升级向导”,添加Httpd的url路径,如:http://192.168.1.201/cm/5.2.0。升级Cloudera Data Hub(CDH)管理界面点击右上角像礼物包一样的图标,在右侧点击“编辑设置”,在“远程Parcel存储库URL”中添加http://192.168.1.201/

2015-01-12 12:38:34 3600

原创 重装CDH遇到的几个问题

1、HDFS启动失败原因:dfs目录下数据版本是老的。操作:删除dfs目录,重新初始化新的目录。2、Hbase Master启动失败原因:zookper 链接信息过期了。操作:进入zookeeper控制台:.../zookeeper/bin/zkCli.sh,查看目录:ls /,然后删除hbase目录:rmr /hbase,重启zk和hbase。

2015-01-12 12:30:28 1465

原创 卸载Cloudera Manager(CM)和Cloudera Data Hub(CDH)

1、先在Manage管理端移除所有服务。2、删除Manager Server在Manager节点运行$ sudo /usr/share/cmf/uninstall-cloudera-manager.sh如果没有该脚本,则可以手动删除,先停止服务:sudo service cloudera-scm-server stop      sudo service cloud

2015-01-12 12:24:12 1812

原创 手动安装Cloudera Manager

手动安装前需要先开启HTTPD服务执行/usr/sbin/apachectl start,开启后可以通过url访问/var/www/html下的目录。1、下载cloudera manager的repo资源下载 http://archive-primary.cloudera.com/cm5/redhat/6/x86_64/cm/5.2.1/RPMS/x86_64/ 下的资源到 /

2015-01-12 11:44:52 678

转载 手工释放linux内存——/proc/sys/vm/drop_cache

linux的内存查看:[root@localhost 0.1.0]# free -m                   total       used       free     shared    buffers     cachedMem:          4032        694       3337          0          0        

2015-01-12 11:32:10 415

转载 HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的。解决的办法:1、从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点(直接从非datanode的namenode上传也可以,但是这样不太好,会增加namenode的负担,并且时间长了会让na

2015-01-09 16:36:44 1423

转载 Impala的中文翻译链接

Impala的中文翻译链接http://my.oschina.net/weiqingbin/blog?catalog=423691

2015-01-08 11:49:22 753

原创 Impala中变相实现删除和更新

通用的删除SQL语句:delete from ODS_DPFM02 a where exists (  select 1 from ODS_DPFM18 d   where a.DM02ACCT = d.DM18ACCT   and a.DM02ACCS = d.DM18ACCS);通用的更新SQL语句:update ODS_DPFM02 a set a.D

2015-01-07 21:18:12 12051

原创 Impala调试注意事项

1、压缩(默认是Snappy)是否压缩需要根据具体场景而定,如果需要压缩推荐使用Snappy。压缩的好处在于HDFS上存储更少,以及在执行broadcast的时候网络传输更少的数据,但要解压缩需要带来额外的CPU开销。如果执行的SQL本身是CPU密集型的,压缩未必合适。不使用压缩:set compression_codec=none;使用GZIP压缩:set compressi

2015-01-07 20:31:15 1937

转载 HDFS中的集中缓存 (Centralized Cache Management in HDFS)

集中缓存有两层概念:第一层是缓存,即为存储在HDFS中文件提供缓存的机制,从而可以加速DFSClient对文件的读操作;第二层概念是集中式的管理,传统的HDFS缓存依赖了OS本身的缓存机制,但是这种缓存机制不能被管理员或中央节点进行管理,不能自由的控制哪些文件缓存,哪些文件不进行缓存;集中式的管理可以提高了对缓存内存的可控性;HDFS中集中缓存架构如下所示:

2015-01-07 16:25:28 592

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除