自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

Hive安装

Hive安装hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Hive是一个客户端工具,需要在哪台机器上运行就在哪台机器上安装,根据metastore的位置可以将hive的安装模式分为3种:内嵌模式,本地模式,远程模式。Hive的安装是需要在hadoop基础上的,...

2014-11-21 20:43:35 92

关系模式范式

数据库的关系模式范式就是数据库设计要满足的规范,满足这些规范的数据库是简洁的,结构清晰的。第一范式(1NF):所有的列不可再分第一范式就是指所有的列都是不可再分的基本数据项,即表中的每一列都不能有多个值。说明:在任何一个关系数据库中,第一范式是对关系模式的基本要求,不满足第一范式的数据库不是关系数据库。第二范式(2NF):非主属性完全依赖于主键(消除部分主函数依赖)如果关系模...

2014-11-17 15:54:01 324

Pig安装

Pig有两种使用模式:本地模式和MapReduce模式。Pig进行实际工作的模式是MapReduce模式,使用Pig的MapReduce模式首先需要已经安装好的hadoop集群,关于hadoop集群的搭建在之前已经讲过。下面就在之前搭建的集群的基础上,安装pig。安装过程如下:1 下载pig-0.9.0.tar.gz,复制到hadoop集群的master节点的根目录下(pig相当于h...

2014-11-13 16:20:43 130

Hadoop与关系数据库

Hadoop对关系数据库无非两种操作,即从关系数据库输入到HDFS和从HDFS输出到关系数据库。Hadoop中分别提供了DBInputFormat类和DBOutputFormat类,前者用于从关系数据库输入到HDFS,该类将关系数据库中的一条记录作为向Mapper输入的value值,后者用于将HDFS中的文件输出到关系数据库,该类将Reducer输出的key值存储到数据库。我们只要在主程序中设...

2014-11-11 21:30:44 169

通过全局文件复制实现多数据源的Map端连接

在DataJoin实现多数据源reduce端连接的过程中,连接在reduce阶段才会进行,因此一些无效的数据在reduce的时候才能去除掉,这样做占用了通信带宽,虽然该方法比较通用,但是效率不高。当数据源中有数据量较小的或者经过处理后数据量较小的数据源的时候,我们考虑使用全局文件复制的方法来实现map端连接。这个过程需要Hadoop缓存系统的支持。Hadoop提供了DistributedC...

2014-11-10 17:45:45 88

用DataJoin实现多数据源的Reduce端链接

DataJoin是Hadoop处理多数据源问题的一个jar包,放在HADOOP_HOME/contrib/文件夹下,使用该框架时,除了需要将jar包导入到工程中,还需要将该jar包导入到每个hadoop集群节点的HADOOP_HOME/lib/包下。下面我们来看下DataJoin框架式如何处理多数据源的连接的。为了完成不同数据源的链接,首先,需要为不同数据源下的每个记录定义一个数据源标...

2014-11-08 16:51:41 118

hadoop之用户定制

Hadoop提供了9中内置数据类型,分别为:[color=red]BooleanWritableByteWritableIntWritableLongWritableFloatWritableDoubleWritableText(使用UTF8格式存储的文本)NullWritable(空值的时候使用)[/color]当然,用户也可以自定义数据类型,自定义数据类型时...

2014-11-04 09:30:27 111

使用复合键优化倒排索引

巧用复合键优化倒排索引程序之前写了一个倒排索引的程序,但是可以注意在到生成的索引文档中,一个单词对应的文档并非是按照词频的大小进行排列的。这不是我们最想要的结果,我们希望对应的文档按照词频的大小进行排列。这里我们使用复合键来完成对文档的排序。巧用复合键可以达到一些优化效果,比如说将多个细粒度的键值对合并为一个处理度的键值对,这样可以减小集群中网络的开销。 比如:可以优化为:&...

2014-11-03 11:18:28 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除