- 博客(15)
- 资源 (82)
- 收藏
- 关注
转载 Hive的JOIN用法
Hive表连接的语法支持如下:Sql代码 join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | ta
2013-12-17 17:23:54 739
转载 hive 子查询特别分析
http://blog.csdn.net/ls3648098/article/details/9630357Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ...确认下是否一定要求列必须唯一? 建表语句:create table tb_in_ba
2013-12-17 15:19:05 1523
转载 Linux磁盘空间不足
Linux磁盘空间不足报警,是/var/account/pacct这个文件导致的var挂载点空间不足。 这个文件的意思:Linux下有一个记载进程记录的进程psacct,当一个进程终止时,把每个进程向统计文件(pacct或acct)中写一个纪录。进程统计的目的是为系统中的基本服务提供命令使用统计。该文件可以通过数据的工具(sa,ac)进行分析。 解决方法:(
2013-12-13 14:22:16 1996
原创 整理和总结hive sql
注意:hive命令每句话结束必须加分号,才能退出,类似于mysql的shell。--------------------------------------------------------------------------进入hive shell#hive或者hive --service cliHive 的启动方式:hive 命令行模式,直接输入/hive/bin/hi
2013-12-12 18:00:22 2679
转载 hive转义字符
CREATE TABLE escape (id STRING, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '"'; LOAD DATA LOCAL INPATH '/home/tianzhao/book/escape.txt' OVERWRITE INTO TABLE escape; escape.
2013-12-12 16:32:24 4461
转载 常用HQL语句
Hive 的启动方式:1、hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive - -service cli2、hive web界面的启动方式,hive - -service hwi3、hive 远程服务 (端口号10000) 启动方式,nohup hive - -service hiveserver & 创建表ci
2013-12-12 16:17:45 1399
转载 hive分区(partition)简介
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节
2013-12-12 13:43:41 4285
原创 Hive CSV Support(csv-serde)
csv-serde下载地址:http://ogrodnek.github.io/csv-serde/用法:add jar path/to/csv-serde.jar;create table my_table(a string, b string, ...) row format serde 'com.bizo.hive.serde.csv.CSVSerde' stored a
2013-12-11 17:45:18 1529
转载 Mapreduce中value集合的二次排序
Hadoop的MapReduce模型支持基于key的排序,即在一次MapReduce之后,结果都是按照key的大小排序的。但是在很多应用情况下,我们需要对映射在一个key下的value集合进行排序,即“secondary sort”。 在《hadoop the definate guide》的P227的“secondary sort”章节中,以为例,在map阶段按照year来分发t
2013-12-10 19:01:39 2630
转载 mapreduce编程(二)- 大象书中求每一年的最高温度
转自:http://blog.csdn.net/heyutao007/article/details/5890165书上的例子是为了取出一年当中气温最高的值,那么将年份和气温做了一个复合的key. 1 通过设置了partitioner来进行分区。因为分区是按照年份来进行,所以同年的数据就可以分区到一个reducer中。2 自定义key比较器,按照年份升序,温度值
2013-12-09 10:34:12 1029
转载 mapreduce编程(一)-二次排序
转自:http://blog.csdn.net/heyutao007/article/details/5890103mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程) public static class Map extends Mapper
2013-12-09 10:33:07 736
转载 MapReduce初级案例(转自虾皮博客)
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1:
2013-12-06 09:40:39 1121
转载 hadoop解决中文输出乱码
hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。 默认的情况下MR主程序中,设定输出编码的设置语句为:
2013-12-05 14:25:18 9508
转载 Hadoop Map/Reduce教程
Hadoop Map/Reduce教程目的先决条件概述输入与输出例子:WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提交与监控作业的控制作业的输入InputSpl
2013-12-05 09:29:11 923
转载 LINUX分区
hd表示硬盘 a表示第一块盘 1表示第一分区hda1表示第一块盘的第一分区--------------------------------------cd /mntmkdir wincmkdir windmkdir winemount /dev/hda1 /mnt/wincmount /dev/hda5 /mnt/wi
2013-12-04 13:27:43 614
weather-icons-2.0.12.tar.gz
2021-11-28
caddy_2.4.6_linux_arm64.tar.gz
2021-11-28
caddy_2.4.6_linux_arm64.deb
2021-11-28
caddy_2.4.6_linux_amd64.tar.gz
2021-11-28
caddy_2.4.6_linux_amd64.deb
2021-11-28
caddy_2.4.6_freebsd_armv7.tar.gz
2021-11-28
caddy_2.4.6_freebsd_amd64.tar.gz
2021-11-28
caddy_2.4.6_freebsd_arm64.tar.gz
2021-11-28
caddy_2.4.6_freebsd_armv6.tar.gz
2021-11-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人