Hadoop
文章平均质量分 85
过往记忆
这个作者很懒,什么都没留下…
展开
-
Hive0.11.0的新特性
1、新增”Explain dependency”语法,以json格式输出执行语句会读取的input table和input partition信息,这样debug语句会读取哪些表就很方便了123456789hive> explain dependency select count(1) from p;OK{"input_partitions":[{"partitionName":"default@原创 2013-11-05 15:44:48 · 3327 阅读 · 1 评论 -
Hadoop YARN中web服务的REST API介绍
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Hadoop YARN中web服务的REST API介绍》本文链接:http://www.iteblog.com/archives/960Hadoop、Hive、Hbase、Flume等QQ交流群:13861535原创 2014-03-13 10:56:57 · 14701 阅读 · 1 评论 -
Apache Hadoop 2.3.0三大重要的提升
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Hive几种数据导入方式》本文链接:http://www.iteblog.com/archives/949Hadoop、Hive、Hbase、Flume等QQ交流群:138615359 hadoop更新实在是太快原创 2014-03-05 10:04:26 · 9356 阅读 · 0 评论 -
Flume-0.9.4和Hbase-0.96整合(2)
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Flume-0.9.4和Hbase-0.96整合(2)》本文链接:http://www.iteblog.com/archives/916Hadoop、Hive、Hbase、Flume等QQ交流群:138615359原创 2014-02-14 10:33:51 · 7915 阅读 · 0 评论 -
Hadoop2.2.0完全分布式集群平台安装与设置
经过好多天的各种折腾,终于在几台电脑里面配置好了Hadoop2.2.0分布式系统,现在总结一下如何配置。 前提条件: (1)、首先在每台Linux电脑上面安装好JDK6或其以上版本,并设置好JAVA_HOME等,测试一下java、javac、jps等命令是否可以在终端使用,如何配置JDK这里就不说了; (2)、在每台Linux上安装好SSH,如何安装请参加《Linux平台下安装SSH》。后面原创 2013-11-07 09:52:04 · 5210 阅读 · 6 评论 -
Hive日志调试
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。http://www.iteblog.com/archives/tag/hive的那些事 这些天看到很多人在使用Hive的过程遇到这样或那样的错原创 2014-01-15 10:04:05 · 12729 阅读 · 0 评论 -
Hive几种参数配置方法
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 Hive提供三种可以改变环境变量的方法,分别是:(1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命原创 2014-01-10 10:13:31 · 11095 阅读 · 0 评论 -
Hive内置数据类型
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。http://www.iteblog.com/archives/tag/hive的那些事 Hive的内置数据类型可以分为两大类:(1)、基础数据原创 2014-01-08 09:51:29 · 11068 阅读 · 0 评论 -
HDFS文件内容追加(Append)
HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HDFS2.x开始支持给文件追加内容,可以参见https://issues.apache.org/jir原创 2014-01-06 11:19:27 · 20379 阅读 · 5 评论 -
Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
直到目前,我们看到的所有Mapreduce作业都输出一组文件。但是,在一些场合下,经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便;比如将一个log里面属于不同业务线的日志分开来输出,并交给相关的业务线。 用过旧API的人应该知道,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.原创 2013-11-28 09:48:40 · 5824 阅读 · 0 评论 -
Hadoop1.x集群升级Hadoop2.x相关文章
1、《从Hadoop1.x集群升级到Hadoop2.x步骤》:http://www.iteblog.com/archives/8562、《从Hadoop1.x集群升级到Hadoop2.x失败回滚步骤》:http://www.iteblog.com/archives/8573、《Hadoop1.x程序升级到Hadoop2.x需要的依赖库》:http://www.iteblog.com/archive原创 2013-12-06 09:56:21 · 3910 阅读 · 0 评论 -
编写简单的Mapreduce程序并部署在Hadoop2.2.0上运行
经过几天的折腾,终于配置好了Hadoop2.2.0(如何配置在Linux平台部署Hadoop请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》),今天主要来说说怎么在Hadoop2.2.0伪分布式上面运行我们写好的Mapreduce程序。先给出这个程序所依赖的Maven包:01020304050607080910111213141516171819202122原创 2013-10-29 13:17:57 · 8720 阅读 · 1 评论 -
Hive insert into语句用法
在Hive0.8开始支持Insert into语句,它的作用是在一个表格里面追加数据。标准语法语法如下:123456789用法一:INSERT OVERWRITE TABLE tablename1 [PARTITION \(partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] \select_statement1 FROM from_statemen原创 2013-10-30 18:00:59 · 89145 阅读 · 1 评论 -
Hadoop2.2.0中HDFS的高可用性实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无法利用,直到原创 2013-11-14 15:41:18 · 3595 阅读 · 1 评论 -
精心收集的Hadoop学习资料(持续更新)
最近发现自己收集到的Hadoop学习资料有很多本,想想放在那里也浪费,所以觉得贴出来给大家分享,需要的可以去我CSDN里面下载,保证全部资源免费下载!这里面很多英文的资料。 1、《Hadoop技术内幕:深入解析Hadoop Common和HDFS》下载地址:http://download.csdn.net/detail/w397090770/6643259。 2、《Hadoop技术内幕:深入解原创 2013-12-24 14:14:40 · 15914 阅读 · 7 评论 -
Hive的数据存储模式
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(原创 2013-12-27 11:53:44 · 10432 阅读 · 1 评论 -
史上最全的大数据学习资源(Awesome Big Data)
为了让大家更好地学习交流,过往记忆大数据花了一个周末的时间把Awesome Big Data里近 600 个大数据相关的调度、存储、计算、数据库以及可视化等介绍全部翻译了一遍,供大家学习交流。关系型数据库管理系统MySQL世界上最流行的开源数据库。 PostgreSQL世界上最先进的开源数据库。 Oracle Database- 对象关系数据库管理系统。 Teradat...翻译 2019-09-25 23:17:33 · 2930 阅读 · 2 评论