Everything should be made as simple as possible, but no simpler

Hive应用性能优化

1. 将表分区(Partitioned Table)通过将表划分为相互独立的分区,对应于HDFS上相互独立数据目录,在查询时通过指定分区列上的条件,将读取数据的范围限定在关心的数据上,而不需要读取全表数据,继而提升查询性能;通过CREATE TABLE语句实现。2. 分桶(Bucked Table...

2018-07-03 11:42:36

阅读数 235

评论数 0

Hadoop备忘:Reduce阶段Iterable<VALUEIN> values中的每个值都共享一个对象

/** * Iterate through the values for the current key, reusing the same value * object, which is stored in the context. * @return the series...

2016-03-31 16:11:22

阅读数 3041

评论数 0

利用virtualenv在Hadoop Streaming中使用完全个性化的Python解释器

在使用Python编写Hadoop Streaming作业的过程中,我们发现需要使用一些比较复杂的第三方库,比如numpy,scipy,scikit-learn,pandas等等。而这些库通过简单的zipimport机制又不能正常在工作节点上执行,主要原因是这些库中,有些是有C共享库依赖的。 ...

2016-03-01 14:24:08

阅读数 3475

评论数 1

[备忘]CDH5.3 Hive FAILED: RuntimeException Cannot create staging directory 报错原因

最近在从CDH5.2升级到CDH5.3后,发现启动Hive执行查询语句时报以下错误: hive> select count(1) from ht_payment; FAILED: RuntimeException Cannot create staging directory 'hdfs:/...

2015-02-05 11:43:28

阅读数 4482

评论数 0

另一种扩展并加速Hadoop计算能力的计算架构—Presto

Hadoop自身的MapReduce计算框架是非常chua

2014-09-25 11:13:41

阅读数 6258

评论数 0

Hadoop集群服务器以及相关硬件选择的一些认识

最近由于运行了两年多的Hadoop集群,硬盘故障的现象愈加频繁,故开始着手更换集群磁盘,但是所有的DataNode的磁盘都不是热插拔的,导致,必须关机,卸开服务器然后更换磁盘。 经过这次之后,我想非常有必要专门总结一下Hadoop集群的服务器选择问题。 1. 硬盘更换方便: 硬盘是主要...

2014-04-02 14:39:07

阅读数 7354

评论数 2

对HDFS存储粒度的一点新认识

首先HDFS是适合大文件存储的文件系统,对于过多的小文件的应用场景并不适合。以下是一些使用过程中的经验和总结,希望对大家有所帮助,当然,如有谬误,也请大家指出,欢迎讨论。 过犹不及——根据数据查询需求,定制数据存储粒度 为了尽可能的细化数据存储粒度,我们对于每个产品的数据,按天进行隔离...

2014-03-28 11:39:32

阅读数 1563

评论数 0

HUE beeswax中文显示问题的解决方案

HUE是Cloudera推出的Hadoop生态系统的Web访问接口,基于Python Django开发。 在使用过程中发现,如果提交的SQL语句中有中文的注释,提交之后,整个语句将会保存在后端的MySQL历史表中,但是再次去查看历史记录的时候,其中的中文却显示成一串问号。显然,这种问题是...

2013-05-23 19:03:05

阅读数 5525

评论数 2

结合Scribe/RabbitMQ/pika实现为Hive动态添加partition元数据

现有架构中通过Scribe直接向HDFS中写入数据,大部分的对数据的操作都是通过Hive来进行的,所以需要在数据进入HDFS之后就能通过Hive来访问到具体的数据,这就需要以数据驱动来添加元数据。以前使用的方式是通过按照固定的时间间隔来执行一个并行批量添加元数据的Java程序,不过那样做可能会漏掉...

2013-04-25 11:15:41

阅读数 1686

评论数 2

使用Python通过Thrift接口访问HBase和Hive

HBase和Hive都提供了thrift服务,作为给其它非JVM语言访问的接口,其使用本身非常简单。以下是封装好的两个访问接口,数据最终被组织成一个列表,列表里的每个元素都是一个字典,这样元数据和数据放在一起,虽然占用的内存多了一些,但是使用起来方便了许多,并且从效果上也拉近了和关系数据库的距离,...

2013-03-21 16:10:04

阅读数 3116

评论数 1

使用Hive UDF和GeoIP库为Hive加入IP识别功能

Hive是基于Hadoop的数据管理系统,作为分析人员的即时分析工具和ETL等工作的执行引擎,对于如今的大数据管理与分析、处理有着非常大的意义。GeoIP是一套IP映射数据库,它定时更新,并且提供了各种语言的API,非常适合在做地域相关数据分析时的一个数据源。 UDF是Hive提供的用户...

2013-01-30 23:53:50

阅读数 4290

评论数 4

初探Flume—又一个分布式日志收集系统

以前一直在使用Facebook开源的Scribe作为项目中的日志收集系统,Scribe能够满足我们需求,不过前段时间看到了几种分布式日志收集系统的比对之后,发现Cloudera的Flume从实现上来说更加完善,最近有时间探索了一下。 1 安装,作为Cloudera发行版的一大优势,安装从...

2012-12-26 17:02:13

阅读数 6628

评论数 4

一个数据应用闭环

收集: 各种开源的分布式日志收集系统: Scribe, Flume等等 存储 可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型: 底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等 关系存储:MySQL,Postgresql等等 键值存储:H...

2012-11-14 18:17:24

阅读数 1488

评论数 0

跨国际链路的数据服务系统架构设计的一种实现思路

现在数据在互联网产品中发挥的作用越来越大,很多公司都开始收集数据、整理数据,之后再数据建模、分析数据;最终我们得到的是知识,是某种规律的发现。发现知识和规律之后,我们需要将这些知识和规律运用到产品的改进或者运营中去。有些知识可以渗透在整个产品的设计中,比如说,我们通过数据分析发现,对于某种类型的网...

2012-07-30 16:15:12

阅读数 1868

评论数 0

hive配置远程metastore的方法

hive配置远程metastore的方法:     1)首先配置hive使用本地mysql存储metastore(服务器A 111.121.21.23)(也可以使用远程mysql存储)     2)配置完成后,在服务器A启动服务:/etc/init.d/hadoop-hive-meta...

2012-03-28 18:11:50

阅读数 3890

评论数 0

CDH3 Hadoop集群摘除节点

首先要明确一点,整个过程都是在NameNode上进行的 1. 在NN上的mapred-site.xml hdfs-site.xml中分别取配置mapred.hosts, mapred.hosts.exclude,dfs.hosts,dfs.hosts.exclude;没有exclude的配置所...

2012-03-28 15:36:33

阅读数 2584

评论数 2

R+Hadoop Rhipe部署

R版本R-2.14.2 Rhipe版本0.66 protobuf版本2.4.1 首先安装R语言软件,需要注意configure时,先设置几个环境变量,编译长shared lib  cd R-2.14.2 export CFLAGS=-fPIC export CXXFLAGS...

2012-03-12 14:41:49

阅读数 2696

评论数 0

Hadoop集群硬件选择文章两篇

http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/ http://hortonworks.com/best-practices-fo...

2011-12-27 14:32:37

阅读数 1132

评论数 0

HDFS读取文件过程

从HDFS中读取一个文件,都需要做些什么呢?我们拿一个简单的例子来看一下: import java.io.InputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.ap...

2011-12-26 13:04:25

阅读数 6134

评论数 0

HBase客户端程序

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop...

2011-12-15 16:04:21

阅读数 2356

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭