Hive
文章平均质量分 55
peng_0129
这个作者很懒,什么都没留下…
展开
-
Hive内置函数(测试函数小技巧)
内容较多,见《Hive官方文档》 主要是字符串操作函数 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF测试各种内置函数的快捷方法:1、创建一个dual表create table dual(id string);2、load一个文件(一行,一个空格)到dual表3、select substr('angelab...原创 2018-06-21 14:01:53 · 1089 阅读 · 0 评论 -
Hive常用hql语句(分桶和join操作)&&Hive自定义函数UDF和Transform
show databases;show tables;desc test;-------------分桶表示例:#创建分桶表drop table stu_buck;create table stu_buck(Sno int,Sname string,Sex string,Sage int,Sdept string)clustered by(Sno) sorted by(Sno DESC)into ...原创 2018-06-20 13:19:00 · 807 阅读 · 0 评论 -
hive分桶及相关概念
#创建分桶表create table stu_buck(sno int,sname string,sex string,sage int,sdept string)clustered by(sno) sorted by(sno DESC)into 4 bucketsrow format delimitedfields terminated by ',';#设置变量,设置分桶为true, 设置red...原创 2018-06-20 13:16:37 · 202 阅读 · 0 评论 -
flume多个agent连接(配置文件)
-------从tail命令获取数据发送到avro端口另一个节点可配置一个avro源来中继数据,发送外部存储tail-avro.conf################### Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.s...原创 2018-06-24 18:57:13 · 3748 阅读 · 0 评论 -
工作流调度器azkaban安装及使用
概述2.1.1为什么需要工作流调度系统l 一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等l 各任务单元之间存在时间先后及前后依赖关系l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:1、 ...原创 2018-06-24 18:53:40 · 223 阅读 · 1 评论 -
flume-------用tail命令获取数据,下沉到hdfs
tail-hdfs.conf用tail命令获取数据,下沉到hdfsmkdir /home/hadoop/logwhile truedoecho 111111 >> /home/hadoop/log/test.logsleep 0.5donetail -F test.log采集到hdfs中, 文件中的目录不用自己建的检查下hdfs式否是salf模式: hdfs dfsadmin -rep...原创 2018-06-23 16:55:28 · 645 阅读 · 0 评论 -
Hive安装和基本操作&&Hive thrift服务
Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通hadoop集群的节点) mysql安装仅供参考,不同版本mysql有各自的安装流程 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6...原创 2018-06-15 16:09:24 · 668 阅读 · 0 评论 -
Flume安装部署
Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境上传安装包到数据源所在节点上然后解压 tar -zxvfapache-flume-1.6.0-bin.tar.gz先用一个最简单的例子来测试一下程序环境是否正常1、先在flume的conf目录下新建一个文件vi netcat-logger.conf# 定义这个agent中各组件的名字 a1.sources = r1 ...原创 2018-06-22 15:14:36 · 641 阅读 · 1 评论 -
Hive简介
--------什么事HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。------Hive特点 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。 容错 良好的容错性,节点出现问题SQL仍可完成执行。...原创 2018-06-14 16:51:29 · 140 阅读 · 0 评论 -
hive面试sql----累计报表
create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ',';load data local inpath '/home/hadoop/t_access_times.dat' into table t_access_times;A,2...原创 2018-06-22 14:27:25 · 280 阅读 · 0 评论 -
hiveserver2 启动后jdbc 连接不上
参考url:https://blog.csdn.net/czw698/article/details/44394923转载 2018-06-21 17:19:32 · 2473 阅读 · 0 评论 -
hive分区操作
-------创建分区表,指定分区的字段为countrycreate table t_sz_part(id int,name string)partitioned by(country string)row format delimitedfileds terminated by ',';--------导入数据,指定导入到哪个分区,用country标识load data local inpath...原创 2018-06-20 13:37:47 · 173 阅读 · 0 评论