hive
文章平均质量分 83
逗点儿
大数据爱好者,菜鸟
展开
-
Hive自定义函数提取网址信息
需求:我们需要实现自定义函数,来提取dns中的名字和对应的汉字。并将查询信息写入到另一张表 一. 显示需求基础表 1 www.baidu.com 2 www.google.com 3 www.taobao.com最终结果 baidu 百度 google 谷歌 taobao 淘宝二. 首先我们需要用编写IDEA编写两个UDF函数,来得到两个字段的结果。编写实现原创 2018-01-11 14:42:29 · 732 阅读 · 0 评论 -
hive压缩(2)
在上一篇hive压缩的文章中,我用BZip2、Snappy等方式对其进行压缩,在压缩效果上显然BZip2的效果更佳,但其他压缩方式也因其不同的优点各有应用。而在之前的压缩,所应用的文件格式均为Textfile。我们可以通过 desc formatted tablename 查看文件的格式: # Storage Information SerDe Library: ...原创 2018-03-06 21:01:14 · 337 阅读 · 0 评论 -
Hive执行计划详解
Hive的底层就是MapReduce的编程实现,我们可以通过执行计划详细的了解执行过程。对于我们对底层的理解,有很大的帮助。语法及结构官方对Hive Explain的英文解释,如果大家英文不错的话,强推: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain首先,Explain的语法:EXPLAIN [EXT原创 2018-01-29 17:21:53 · 20864 阅读 · 3 评论 -
Sqoop+Hive+MySQL用户某时间范围,区域最受欢迎的Top N的产品 中级版
写了两个脚本,一个处理了数据分析的一部分,一个处理了hive导回mysql,脚本刚开始接触,实在是不怎么样,大家对付看处理数据分析hadoop:hadoop:/home/hadoop/project:>vi makedata.sh#!/bin/bashnewday=2016.5.6hive -e"insert overwrite directory '/project/$newd原创 2018-01-27 16:57:52 · 231 阅读 · 0 评论 -
Hive DML语法
加载文件到表 LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)]hive> load data local inpath "/home/hadoop/data/deptn.sql" overwrite into原创 2018-01-09 16:37:00 · 753 阅读 · 0 评论 -
静态分区表和动态分区表
在Hive中处理数据时,当处理的一张表的数据量过大的时候,每次查询都是遍历整张表,显然对于计算机来说,是负担比较重的。所以我们可不可以针对数据进行分类,查询时只遍历该分类中的数据,这样就能有效的解决问题。所以就会Hive在表的架构下,就会有分区的这个概念,就是为了满足此需求。静态分区表静态分区表的创建create table order_partition(number string,tim原创 2018-01-09 23:15:57 · 2565 阅读 · 1 评论 -
Sqoop+Hive+MySQL用户某时间范围,区域最受欢迎的Top N的产品 初级版
数据展示: 1.city_info mysql> select * from city_info;+---------+-----------+--------+| city_id | city_name | area |+---------+-----------+--------+| 1 | 北京 | 华北 || 2 | 上海原创 2018-01-25 15:23:50 · 388 阅读 · 0 评论 -
Hive DDL语法
创建数据库 语法:CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, …)];代码演示创建数据库,并查看hdfs文件系统情况,hiv原创 2018-01-09 13:34:41 · 178 阅读 · 0 评论 -
Hive内部表和外部表的区别
在了解内部表和外部表区别前,我们需要先了解一下hive的架构 大家可以简单看一下这个架构图,我介绍其中要点:hive的数据分为两种,一种为普通数据,一种为元数据。元数据存储着表的基本信息,增删改查记录,类似于Hadoop架构中的namespace。普通数据就是表中的详细数据。hive的元数据默认存储在derby中,但大多数情况下存储在MySQL中。普通数据如架构图所示存储在hdfs中。下面原创 2018-01-08 23:43:40 · 1368 阅读 · 0 评论 -
hive 调优概要
hive 优化数据倾斜:join优化宏观角度 架构:全局 分区表 合理利用中间结果集 SQL:执行计划 参数 自动转mapjoin优化: 1. 列裁剪 分区裁剪 桶裁剪 big table和big table做join 2.推测式执行 根据木桶原理,判断最慢的原创 2018-01-23 22:54:55 · 221 阅读 · 0 评论 -
sqoop 参数
DBMS导入到hive表sqoop import–connect jdbc:mysql://localhost:3306/wl 连接数据库,指定数据库 –username root 用户名 –password 123456 密码 –table table_name 指定表名 –hive-import 判断导入到hive –hive-database database_name 导入原创 2018-01-23 22:46:01 · 632 阅读 · 0 评论 -
Map join和Common join详解
利用hive进行join连接操作,相较于MR有两种执行方案,一种为common join,另一种为map join ,map join是相对于common join的一种优化,省去shullfe和reduce的过程,大大的降低的作业运行的时间。 一.先决条件emp表hive> select * from emp;OK369 SMITH CLERK 7902 19原创 2018-01-12 13:59:46 · 14330 阅读 · 0 评论 -
hive压缩(1)
概述为什么会出现需要对文件进行压缩? 在Hadoop中,文件需要存储、传输、读取磁盘、写入磁盘等等操作,而文件的大小,直接决定了这些这些操作的速度。常见压缩方式、压缩比、压缩解压缩时间、是否可切分原文件:1403MSnappy 压缩:701M,压缩时间:6.4s,解压时间:19.8s,不可切分LZ4 压缩:693M,压缩时间:6.4s,解压时间:2.36s,不可切分LZO...原创 2018-03-03 20:27:39 · 226 阅读 · 0 评论