大数据
bigkeen
这个作者很懒,什么都没留下…
展开
-
hbase 常用
进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)>whoami表的转载 2015-03-02 15:55:21 · 284 阅读 · 0 评论 -
Skew Join与Left Semi Join相关
Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据,如果你的join 操作也产生了数据倾斜,那么你可以在hive 中设定set hive.optimize.skewjoin = true; set hiv转载 2016-08-30 18:28:28 · 528 阅读 · 0 评论 -
hadoop单机/伪分布式安装---实用
以前安装过Hadoop几个版本的单机版,主要是为了研究Hadoop源代码,现在想更加深入Hadoop整个生态系统,选择安装Hadoop完全分布式,由于目前Hadoop最新版本为2.6,于是选择这个版本安装使用准备工作:1、笔记本4G内存 ,操作系统WIN7(纯屌丝配置)2、工具:VMware Workstation3、虚拟机:CentOS6.5(64位)共3台,一个转载 2016-06-05 22:52:36 · 288 阅读 · 0 评论 -
hive udtf的使用
原文:http://blog.linezing.com/2011/03/hive%E4%B8%ADudtf%E7%BC%96%E5%86%99%E5%92%8C%E4%BD%BF%E7%94%A81. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many mapin转载 2016-04-24 20:02:52 · 1062 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实转载 2016-05-04 23:03:10 · 703 阅读 · 0 评论 -
SQL join中级篇--hive中 mapreduce join方法分析
1. 概述。本文主要介绍了mapreduce框架上如何实现两表JOIN。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce side joinreduce side join是一种最简单的join方式,其主要思想如下:在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据转载 2016-05-04 21:49:36 · 742 阅读 · 0 评论 -
HIVE中Join的专题---Join详解
Hive表连接的语法支持如下:Sql代码 join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_refere转载 2016-04-14 17:27:25 · 778 阅读 · 0 评论 -
hive join详解
Common Join最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成.首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value转载 2016-04-14 17:20:12 · 405 阅读 · 0 评论 -
hbase表拷贝问题
再做hbase 0.94版本向0.98.6版本的表迁移的过程中遇到如下问题:多次测试发现 是0.98.6版本上的 jackson 版本为jackson-core-asl-1.8.8.jar jackson-jaxrs-1.8.8.jar jackson-mapper-asl-1.8.8.jar jackson-xc-1.8.8.jar然而2.0 需要的原创 2016-04-12 18:33:25 · 657 阅读 · 0 评论 -
hbase 表数据迁移
1 CopyTable 工具用法:CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The target table must first exist. The usage is as follows:$ b转载 2016-04-12 18:23:21 · 1614 阅读 · 0 评论 -
解决方案:hbase数据迁移发生ERROR: Unknown table错误
以下是文章的原文:说明:网上众多千篇一律的版本都说要用到一个add_table.rb的文件,可是我的版本根本hbase下就不存在这个文件。1.把数据表test从hbase下拷出(hadoop dfs -get /hbase/test ./)2.文件放到新集群的系统上。3.文件拷入新的hadoop集群hbase下(hadoop dfs -put t转载 2016-04-01 10:38:22 · 2143 阅读 · 0 评论 -
Hbase集群间数据迁移方法总结(包括不通信集群)
问题导读:1.不同版本间集群是否可以迁移?2.distcp命令的作用是什么?3..MEAT表的作用是什么?4.相互不通信集群,数据该如何迁移?HBase迁移数据方案一(集群互联)花了一天的时间查资料做测试,略微的总结了一下hbase数据迁移的方法。一、需要在hbase集群停掉的情况下迁移步骤:(1)执行Hadoop distcp转载 2016-04-01 10:37:40 · 10284 阅读 · 1 评论 -
elasticsearch的一些基本概念
需要我们注意的是,这些概念理解只是解释其含义,不推荐强制翻译成中文。Index:这是ES存储数据的地方,类似于关系数据库的database。Document type:嗯,类似关系数据库的表,主要功能是将完全不同schema(这个概念以后会讲到,不急)的数据分开,一个index里面可以有若干个Document type。Document:好吧,这个类似关系数据库的一行,在同转载 2015-04-24 13:41:53 · 395 阅读 · 0 评论 -
redis安装过程中的问题解决
今天装了个centos2.6.4 然后装jdk,完了redis2.6.4装redis2.6.4折腾了老半天,缺了很多东西,连gcc都没有无语中……废话不多说,直接上过程1、报错一 没用gcc安装过程 yum install cpp yum install binutils yum install glibc yu转载 2015-04-15 16:12:46 · 1382 阅读 · 0 评论 -
hive的查询注意事项以及优化总结 .
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon转载 2015-03-26 19:44:32 · 390 阅读 · 0 评论 -
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2015-03-04 10:32:26 · 341 阅读 · 0 评论 -
Elasticsearch Scripted Metric Aggregation 自定义聚合
1、首先创建所以:PUT test_date{ "settings":{ "number_of_shards":2, "number_of_replicas":0 }}2、创建索引结构PUT test_date/tag_type/_mapping { "tag_type": { "dynamic原创 2017-07-03 17:39:53 · 4651 阅读 · 1 评论