hive
山鹰的天空
追求漂亮的技术,让用户有最好的体验。
展开
-
Hive的几种常见的数据导入方式
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:转载 2016-06-29 11:50:00 · 524 阅读 · 0 评论 -
HIVE和HBASE区别
HIVE和HBASE区别1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。转载 2016-07-19 14:22:03 · 510 阅读 · 0 评论 -
安装hadoop和hive时候遇到的问题及解决方法
#-----------------------------------------------------------------# 安装JDK1. 查看并卸载Linux自带的JDK安装好的CentOS会自带OpenJdk,用命令 java -version ,会有下面的信息:java version "1.6.0" OpenJDK Runtime Environment (原创 2016-07-07 17:11:27 · 2146 阅读 · 0 评论 -
jdbc连接hive超时的问题
jdbc连接hive 超时的问题,原因:1.hadoop服务没有启动,2.hive服务没有启动、3.防火墙没有关闭。原创 2016-07-07 17:03:25 · 8004 阅读 · 0 评论 -
hive的更新和删除操作脚本
insert overwrite table t_table1 select * from t_table1 where XXXX;其中xxx是你需要保留的数据的查询条件。如果清空表,如下:insert overwrite table t_table1 select * from t_table1 where 1=0;原创 2016-07-28 09:32:35 · 1235 阅读 · 0 评论 -
spark执行sql语句
spark-sql回车 接下来就是执行hive的sql了。原创 2016-07-27 15:50:52 · 3522 阅读 · 0 评论 -
hive的查询注意事项以及优化总结 .
hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段sele转载 2016-07-05 06:38:15 · 6691 阅读 · 0 评论 -
hive导入CSV格式的数据
解决方法有几种1),对csv文件做处理2),hive定义inputstream,用正则表达式处理2.1)cat /home/alex/test/testdata.txt"1","alex","dba""2","james","dba"2.2)hive> create table test_serde(c1 string,c2 string, c3 string) R原创 2016-07-04 13:39:09 · 6638 阅读 · 0 评论 -
hadoop集群的搭建
今天终于把hadoop集群环境给搭建起来了,能够运行单词统计的示例程序了。集群信息如下:主机名Hadoop角色Hadoop jps命令结果Hadoop用户Hadoop安装目录masterMasterslavesNameNodeDat转载 2016-07-03 22:20:10 · 464 阅读 · 0 评论 -
hive并发调用的运行方式
前言使用hive,我们很多情况下会并发调用hive程序,将sql任务转换成mapreuce提交到hadoop集群中,而在本人使用hive的过程中,发现并发调用hive有几个问题,在这个和大家分享下.正文默认安装hive,hive是使用derby内存数据库保存hive的元数据,这样是不可以并发调用hive的,需要配置为使用mysql保存hive的元数据。 运行转载 2016-07-14 16:05:03 · 2590 阅读 · 0 评论 -
hive中的时间处理函数
日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixt转载 2016-07-01 11:34:30 · 836 阅读 · 0 评论 -
hive的时间类型的查询
我用Hive写查询的时候发现,查询条件里面如果指定了时间范围,查询的速度会变更的非常慢,具体如下:我是想查询12月18~25号的数据,device_gmt_time字段的内容是yyyy-MM-dd HH:mm:ss 的格式,所以我先用to_date转成日期,然后用datediff函数select * from t_proxy_user_log_partition where原创 2016-07-01 11:31:58 · 11149 阅读 · 1 评论 -
hive的启动
先启动hadoopstart-dfs.shstart-yarn.sh再启动hivehive再启动hive服务hive --service hiveserver -p 10002然后就可以使用了show tables;原创 2016-06-29 16:40:12 · 818 阅读 · 0 评论 -
java连接不上hive 的原因
最近在学习Hive,发现在Eclipse中通过JDBC方式连接Hive报错(报错的信息如下),一直找不到原因,偶然的一次又能连接成功。发现原因可能是打开了Hive Shell,后来把Hive Shell和Hive Web UI关了又试了几次,没有再报错。应该是这个原因:Hive Shell 、Hive Web UI及JDBC 三种连接Hive Server的方式是互斥的,同一时刻只能用一种方式原创 2016-06-29 16:36:00 · 5476 阅读 · 0 评论 -
hadoop集群安装与配置--c#调用hive的thrift服务
1.在hadoop.client上开始运行hive的thrift服务,命令如下bin/hive --service hiveserver2.通过NuGet安装hive的c#客户端,项目地址如下https://bitbucket.org/vadim/hive-sharp/3.c#调用服务demo代码int port = 10000;//注意hadoop.client服原创 2016-08-10 14:26:54 · 852 阅读 · 0 评论