Hive
文章平均质量分 86
过往记忆
这个作者很懒,什么都没留下…
展开
-
Hive的数据存储模式
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(原创 2013-12-27 11:53:44 · 10354 阅读 · 1 评论 -
Hadoop2.2.0完全分布式集群平台安装与设置
经过好多天的各种折腾,终于在几台电脑里面配置好了Hadoop2.2.0分布式系统,现在总结一下如何配置。 前提条件: (1)、首先在每台Linux电脑上面安装好JDK6或其以上版本,并设置好JAVA_HOME等,测试一下java、javac、jps等命令是否可以在终端使用,如何配置JDK这里就不说了; (2)、在每台Linux上安装好SSH,如何安装请参加《Linux平台下安装SSH》。后面原创 2013-11-07 09:52:04 · 5168 阅读 · 6 评论 -
Hive几种数据导入方式
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Hive几种数据导入方式》本文链接:http://www.iteblog.com/archives/949Hadoop、Hive、Hbase、Flume等QQ交流群:138615359 写在前面的话,学Hive这原创 2014-02-24 10:18:58 · 10800 阅读 · 0 评论 -
Hive日志调试
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。http://www.iteblog.com/archives/tag/hive的那些事 这些天看到很多人在使用Hive的过程遇到这样或那样的错原创 2014-01-15 10:04:05 · 12663 阅读 · 0 评论 -
Hive几种参数配置方法
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 Hive提供三种可以改变环境变量的方法,分别是:(1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命原创 2014-01-10 10:13:31 · 11054 阅读 · 0 评论 -
Hive内置数据类型
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。http://www.iteblog.com/archives/tag/hive的那些事 Hive的内置数据类型可以分为两大类:(1)、基础数据原创 2014-01-08 09:51:29 · 10976 阅读 · 0 评论 -
Hive0.11.0的新特性
1、新增”Explain dependency”语法,以json格式输出执行语句会读取的input table和input partition信息,这样debug语句会读取哪些表就很方便了123456789hive> explain dependency select count(1) from p;OK{"input_partitions":[{"partitionName":"default@原创 2013-11-05 15:44:48 · 3272 阅读 · 1 评论 -
Hive:用Java代码通过JDBC连接Hiveserver
我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出Hive Server所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。今天我们来谈谈怎么通过HiveServer来操作Hive。原创 2013-12-18 09:52:46 · 32078 阅读 · 9 评论 -
Hive到底是什么
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。那么,到底什么是Hive,我们先看看Hi原创 2013-12-18 11:55:34 · 7653 阅读 · 0 评论 -
Hive insert into语句用法
在Hive0.8开始支持Insert into语句,它的作用是在一个表格里面追加数据。标准语法语法如下:123456789用法一:INSERT OVERWRITE TABLE tablename1 [PARTITION \(partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] \select_statement1 FROM from_statemen原创 2013-10-30 18:00:59 · 87518 阅读 · 1 评论 -
Hadoop2.2.0中HDFS的高可用性实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无法利用,直到原创 2013-11-14 15:41:18 · 3533 阅读 · 1 评论 -
Hive:简单查询不启用Mapreduce job而启用Fetch task
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下:01020304050607080910111原创 2013-12-19 09:57:47 · 12704 阅读 · 0 评论 -
Hive创建索引
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(原创 2013-12-20 09:52:27 · 21150 阅读 · 1 评论 -
Hive安装与配置
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 前提条件:安装好相应版本的Hadoop(可以参见《在Fedora上部署Hadoop2.2.0伪分布式平台》)、安装好JDK1.6或以上版本(可原创 2013-12-24 09:50:57 · 9369 阅读 · 1 评论 -
《Hive的那些事》序列博文汇总
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《《Hive的那些事》序列博文汇总》本文链接:http://www.iteblog.com/archives/922Hadoop、Hive、Hbase、Flume等QQ交流群:138615359 经过去年年底的一段原创 2014-02-20 10:38:40 · 8773 阅读 · 0 评论