自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 Hadoop中map数的计算

Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是: goalSize = totalSize / mapred.map.tasks minSize = max {mapred.min.split.size, minSplitSize} ...

2014-01-23 11:42:26

阅读数 485

评论数 0

转载 hive 0.10 0.11新增特性综述

我们的hive版本升迁经历了0.7.1 -> 0.8.1 -> 0.9.0,并且线上shark所依赖的hive版本也停留在0.9.0上,在这些版本上有我们自己的bug fix patch和feature enhancement。但是Hive的版本升级很快,新版本中修复了大量bug,新增...

2014-01-08 15:05:10

阅读数 572

评论数 0

原创 hive的overwrite

这几天有个朋友问我 hive的overwrite是怎么执行重写,假如重写执行到一半报错,会不会导致丢失数据呢? 一开始没有反应过来,后来想想,其实这个可以从 explain 上看到的。 hive (temp)> explain insert overwrite table ods.ods...

2014-01-08 11:52:09

阅读数 1178

评论数 0

转载 hive优化

hive.optimize.cp=true:列裁剪  hive.optimize.prunner:分区裁剪  hive.limit.optimize.enable=true:优化LIMIT n语句  hive.limit.row.max.size=1000000:  hive.limit....

2013-12-26 12:00:35

阅读数 428

评论数 0

转载 Hive – Group By 的实现

准备数据 hive> SELECT * FROM logs; a 苹果 5 a 橙子 3 a 苹果 2 b 烧鸡 1 hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid; a 10 b 1 计算过程 ...

2013-12-25 14:24:55

阅读数 800

评论数 0

原创 hive中的order by+sort by+distribute by+cluster by

order by   它会对输出数据做全局排序,因此在order by 过程中会将所有数据放入一个reduce(如果是多个reduce的话则不能保证order by 后数据是有序的),当数据量大时,一个reduce的处理压力就成了问题。 当 set hive.mapred.mode=nonst...

2013-12-25 11:39:32

阅读数 669

评论数 0

原创 left outer join 的简单总结

表:lhc01 id      uid 3       1 2       1 1       1 4       1 1       2 3       2 表:lhc02 id      uid 1       2 4       1 2       1 一,...

2013-12-10 15:27:57

阅读数 472

评论数 0

转载 Mongodb用户和认证 权限总结

mongodb数据库db2shellexceptionuser  开启MongoDB服务时不添加任何参数时,默认是没有权限验证的,登录的用户可以对数据库任意操作而且可以远程访问数据库!    在刚安装完毕的时候MongoDB都默认有一个admin数据库,此时admin数据库是空的,没有记录权限...

2013-12-05 16:50:01

阅读数 608

评论数 0

原创 解决mongodb启动时报locale错误以及linux终端或hive CLI无法输入中文的方法

在安装完mongodb后,进入$MONGODB_HOME/bin  执行mongod启动时报 exception in initAndListen: 14043 clear tmp files caught exception exception: locale::facet::_S_creat...

2013-12-02 15:43:13

阅读数 967

评论数 0

原创 SQOOP 解决import时字段为NULL值的情况

想必有些朋友刚开始接触sqoop时,在从mysql(或者别的RDBMS)导入数据到hdfs后会发现原来在mysql中字段值明明是NULL, 为什么到hive查询后 where field is null 会没有结果呢,然后通过检查一看  居然NULL值都变成了字段串'null'...

2013-11-21 10:38:10

阅读数 6550

评论数 1

原创 mongoDB简单语句

自己整理了一些mongoDB日常会用到的语句, sql mongo select * from lhc db.lhc.find() select * from lhc limit 1 db.lhc.findOne() db.lhc.find().limit(1) select...

2013-11-08 16:02:26

阅读数 640

评论数 0

原创 mongoDB的导出工具mongoexport

据了解当前mongoDB支持将数据导成两种形式,一是json  二是csv 可以通过./mongoexport --help 来查看参数介绍 -h [ --host ] arg  连接的ip地址 --port arg 端口号 -u [ --username ] arg       ...

2013-10-29 16:02:24

阅读数 1590

评论数 0

原创 java连接mongoDB

如果没有jar驱动包的先到以下连接下载驱动包。 http://download.csdn.net/detail/jxlhc09/6470809 import java.net.UnknownHostException; import com.mongodb.DB; import co...

2013-10-29 15:43:56

阅读数 646

评论数 0

原创 数据库基础知识

最近在回想之前面试的时候,  有些BT的面试官会问到自己一些比较基础的知识,比如什么是数据库,有几种范式==。 相信现在有好多人都把一些比较重要的基础知识都忘了吧,请问,数据库系统中事务需遵守什么原则==。 像这个问我记得当初回答时有回到到ACID  但是每个大写字母代表什么,还真心很难记住,这几...

2013-10-28 17:52:38

阅读数 621

评论数 0

原创 MongoDB的安装

公司新产品用mongoDB作为业务数据库,我勒个去,我还得将mongoDB数据导入到我的hdfs,郁闷呐! 想着先研究研究mongoDB,今天刚安装上,安装还是挺简单的! 1,从http://www.mongodb.org/downloads下载相应的安装版本 mongodb-linux-x8...

2013-10-25 17:53:48

阅读数 485

评论数 0

原创 数据模型

数据模型(Data Model)是数据特征的抽象,是数据库管理的教学形式框架。数据库系统中用以提供信息表示和操作手段的形式构架 [引用于百度]。 由以下三部分组成: 1,数据结构; 2,数据操作; 3,数据约束。 在平时工作中,数据模型可以划分为三个层次: 1,概念模型 面向于现实世界或者说面...

2013-10-23 18:06:12

阅读数 555

评论数 0

原创 升级hive-0.11后报java.lang.InstantiationException: org.antlr.runtime.CommonToke

今天早上一到公司就发现有个数据有问题,以为是原始数据出问题了,后来查看作业日志,发现以下情况 java.lang.InstantiationException: org.antlr.runtime.CommonToken Continuing ... java.lang.RuntimeExc...

2013-10-22 15:02:33

阅读数 1899

评论数 7

原创 解决升级hive-0.11.0后报WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no long

在将hive升级至0.11.0版本后,每次重新进入hive都会报出一WARN,很似烦人,内容如下: WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effe...

2013-10-21 11:54:50

阅读数 2850

评论数 0

原创 hive的升级(0.8.0到0.11.0)

hive-0.11.0出来后,得知有将row_number进行封装,对于我这等不懂java的人士来说,是莫大的幸福啊!毫不犹豫的将0.8.0抛弃了! 下面是具体升级步骤: 1,关闭当前hive正在执行的进程,service hive-server以及相应的客户端(网上有些作者说要做的,其实这一步我...

2013-10-18 17:22:33

阅读数 580

评论数 0

原创 处理hive中;分号字符

分号是sql的结束符,在hql中亦如此,但是hive对分号的识别没有那么智能,如下: select concat(';','aa') from lhc limit 1; FAILED: Parse Error: line 1:13 cannot reco...

2013-10-16 17:54:12

阅读数 2331

评论数 0

原创 MapReduce的执行过程介绍

对于MapReduce这张图是相当经典的,在网上看到很多谈到MapReduce的执行过程都会用到这张图片,下面我也讲讲自己对它的基础认识。 1,用户向jobclient提交MapReduce job。 2,jobclient向Jobtracker申请一个新的job id(通过调用jobtracke...

2013-10-15 16:42:11

阅读数 874

评论数 0

转载 Hive RCFile的高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE(IEEE International Conference on Data Engin...

2013-10-14 18:10:58

阅读数 725

评论数 0

转载 hive数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive...

2013-10-11 14:36:41

阅读数 480

评论数 0

转载 星型模型和雪花型模型比较

一、概述 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1...

2013-10-10 14:55:27

阅读数 523

评论数 0

原创 Sqoop的安装方法

sqoop是一个用来将hadoop和RDBMS(如mysql,oracle,postgres等)之间数据相互导入导出的工具。 安装与使用都相当简便。当然在你安装之前首先得确保你已经安装了hadoop(这个是必须的)、hive、hbase。 安装如下: 1,下载相应的sqoop版本。 下载地...

2013-10-09 17:56:32

阅读数 509

评论数 0

原创 mailx的安装方法

如果希望通过在linux下发送邮件,可以选用mailx,安装与操作都相当简单。 下面就讲讲mailx安装与使用方法 安装: 1,下载mailx-12.4.tar.bz2 2,解压  tar –xvf mailx-12.4.tar.bz2 3,进入解压后的目录 mailx-12.4 4,使用mak...

2013-10-08 16:29:34

阅读数 2991

评论数 0

原创 hadoop配置fair-scheduler的方法

hadoop有以下几种调度方法 1,FIFO(先进先出调度器)这种是hadoop默认的调度 2,capacity-scheduler(计算能力调度器) 3,fair-scheduler(公平调度器)。 以下是fair-scheduler的配置方法。 1. 将HADOOP_HOME/con...

2013-09-30 16:41:21

阅读数 881

评论数 0

原创 Eclipse连接hadoop的配置方法

1,将hadoop-1.0.3-eclipse-plugin.jar(这里一定要跟你的hadoop版本支持的一致) 文件放入liunx 下的hadoop目录及win下的eclipse的plugins目录下, 然后打开eclipse 在windows->open perspective 下可看...

2013-09-30 14:21:40

阅读数 939

评论数 0

原创 重置root密码

Linux下重置root密码: 1, 在启动linux时按”e”键 2, 进入选项后,将选项选到” kernel”带头的一串选项中,按”e”键进入编辑 3, 在出现的可编辑内容中的ro前加上”single”表是单用户进入。 4, 按回车键返回选项区,然后继续将光标放入”kernel”内容上...

2013-09-29 14:15:03

阅读数 435

评论数 0

原创 元数据的类别

元数据(Metadata):是关于数据的数据,即对数据的描述。 ETL过程的元数据模型主要包括几方面: 1,  数据源的元数据:如果是文本,则应包括该文本的格式表述信息如果是数据库,则应包含数据库信息、数据库模式、数据的表结构、数据字段的属性、数据的完整性约束等 2,  数据仓库的元数据:为...

2013-09-29 13:36:43

阅读数 434

评论数 0

原创 数据仓库的两种建模

1,自下而上(适合先建立数据集市)又称为总线架构(kimball)   按用户的需求通过螺旋发展的过程来设计数据仓库,第一步是根据特定业务过程按照维度模型建立数据集市, 然后通过一系列维度相同的数据集市递增地构建成数据仓库。不同数据集市之间通过创建一致性维度来集成, 每次增加数据集市都必需整...

2013-09-27 23:33:28

阅读数 858

评论数 1

提示
确定要删除当前文章?
取消 删除