Hive
我不是李寻欢
百转千折落人间,身披绶带赛玉泉;
婀娜生姿门前客,飞驰化做林中仙.
展开
-
Hive 建表结合正则表达式的案例
@首先:先回顾一下正则表达式:(\"[^ ]\") (\"-[^ ]\")^ 一个字符串的开始$ 一个字符串的结束"^The" "There" "The cat"$e 以字符e结尾的字符串一个或者一序列字符重复出现的次数* 0次或多次 {0,}+ 1次或多次 {1,}? 至多出现一次 0次或者1次 {0,1}{}使用范围,用大括号,表原创 2017-08-07 20:23:32 · 3545 阅读 · 0 评论 -
sqoop中文手册
1. 概述本文档主要对SQOOP的使用进行了说明,参考内容主要来自于Cloudera SQOOP的官方文档。为了用中文更清楚明白地描述各参数的使用含义,本文档几乎所有参数使用说明都经过了我的实际验证而得到。2. codegen将关系数据库表映射为一个Java文件、Java class类、以及相关的jar包,作用主要是两方面:1、 将数据库表映射为一转载 2017-08-03 19:17:28 · 444 阅读 · 0 评论 -
Sqoop语句简单案例应用
Sqoop中文手册:http://blog.csdn.net/qq_39532946 1)列出mysql数据库中的所有数据库bin/sqoop list-databases \--connect jdbc:mysql://vampire04:3306 \--username root \--password 123456原创 2017-08-04 20:18:30 · 339 阅读 · 0 评论 -
HIVE离线案例理解及测试
1. 离线案例理解及测试(创建表 加载数据导出输出) shell实现自动执行(选做)Hive在离线分析平台的应用 思路:a.创建什么样的表(ETL过滤清洗:写MR程序/过滤空值,脏数据/字段解析/补全) b.根据业务(7个:用户模块,订单模块,地域维度模块),创建中间表,大表拆小表,统计分析模块可以减少数据量的反复加载. 【案例】1.创建二原创 2017-08-05 11:29:01 · 1518 阅读 · 0 评论 -
Hive中的函数大全
目录一、关系运算:...41. 等值比较: =.42. 不等值比较: .43. 小于比较: .44. 小于等于比较: .45. 大于比较: >.56. 大于等于比较: >=.57. 空值判断: IS NULL.58. 非空判断: IS NOT NULL.69. LIKE比较: LIKE.610. JAVA的LIKE转载 2017-08-05 11:33:19 · 2243 阅读 · 1 评论 -
Hive中的简单窗口函数应用
窗口函数:lead lag FIRST_VALUE分析函数: RANK ROW_NUMBER Hive中的简单窗口函数应用TOPNrow number说明:row_number() over ([partition col1] [order by col2])rank() over ([partition col1] [order by col2原创 2017-08-05 12:15:16 · 296 阅读 · 0 评论 -
Hive 中的四种排序
1、order by //可以指定desc 降序 asc 升序order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。create table temperature( year int,temper float)r原创 2017-08-05 12:07:50 · 9802 阅读 · 0 评论 -
Hive 自定义函数函数
使用内置的函数无法完成分析任务,那么需要写自定义函数show functions; //查看自带的所有的内置函数desc function upper; //查看具体的某个函数的用法desc function extended upper; //带有具体案例##分三类## UDF 一进一出 处理原文件内容某些字段包含 [] "" ## U原创 2017-08-04 20:23:14 · 416 阅读 · 0 评论 -
hive 中的二级分区表和动态分区表
二级分区表/管理表: create table emp_part1( empno int, empname string, empjob string, mgrno int, birthday string, salary float, bonus float, deptno int ) partitioned by (day string,hour string)ro原创 2017-09-10 11:19:51 · 7752 阅读 · 0 评论 -
Hive中的简单窗口函数应用(TOPN)
窗口函数:lead lag FIRST_VALUE分析函数: RANK ROW_NUMBERTOPNrow number说明: row_number() over ([partition col1] [order by col2]) rank() over ([partition col1] [order by col2]) dense_rank() over ([partition col1原创 2017-09-23 16:34:48 · 3579 阅读 · 0 评论 -
网站数据分析指标体系
标签: 郑来轶 数据分析 分析报告 数据报表 网站分析 分类: 03.数据分析【编者注】网站流量统计,是指对网站访问的相关指标进行统计。本文整理自网友分享的一份 Word 文档,主要介绍了网站分析的 KPI 指标、数据分析方法、网站分析工具介绍和对比等。一、总论1. 概念网站流量统计,是指对网站访问的相关指标进行统计。网站访问分析(有时也使用“网站流量分析”、“网站流量转载 2017-08-05 11:57:54 · 3580 阅读 · 0 评论 -
Hive数据倾斜
数据倾斜场景:少数key的数据量过于集中:由于聚合函数的操作造成jion类的倾斜处理倾斜:提前将倾斜的数据处理掉提高并行度,多分区多task对Group的聚合分段聚合局部整合对key随机打散将reduce端的聚合提前到map端原创 2017-10-15 09:25:59 · 315 阅读 · 0 评论 -
Sqoop架构介绍及搭建流程简介
Sqoop架构介绍 1、Sqoop的概念 Sqoop:SQL–to–Hadoop 正如Sqoop的名字所示:Sqoop是一个用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如mysql、Oracle)中的数据导入到Hadoop.2.Sqoop1和Sqoop2对比的异同之处两个不同的版本,完全不兼容 版本号划分区别,Apache版本:原创 2017-08-03 18:31:56 · 568 阅读 · 0 评论 -
Hiveserver2 的简单配置说明
hiveserver简介:这个可以让Hive以提供Trift服务的服务器形式来运行,可以允许许多不同语言编写(C python java)的客户端进行通信。使用需要启动HiveServer服务以和客户端联系,我们可以通过设置HIVE_PORT环境变量来设置服务器所监听的端口号,在默认的情况下,端口为10000。可以通过下面方式来启动HiveServer:bin/hive --service原创 2017-08-02 19:19:30 · 2713 阅读 · 0 评论 -
Hive中的数据类型
基本数据类型Numeric Types TINYINT SMALLINT INT/INTEGER BIGINT FLOAT DOUBLE DOUBLE PRECISION DECIMALDate/Time Types TIMESTAMP DATE INTERV原创 2017-08-02 19:17:18 · 935 阅读 · 0 评论 -
Hive的存储格式
1.Hive使用的文件格式 : SEQUENCEFILE//序列化 | TEXTFILE -- (Default, depending on hive.default.fileformat configuration) | RCFILE -- (Note: Available in Hive 0.6.0 and later) Row存储 Columnar字原创 2017-08-07 21:19:59 · 362 阅读 · 0 评论 -
Hive的压缩
压缩减少磁盘存储压力,负载减少网络IO负载1).首先,要保证hadoop是支持压缩检查是否支持压缩算法$ bin/hadoop checknativeNative library checking:hadoop: false zlib: false snappy: false lz4: false bzip2: false op原创 2017-08-07 21:24:21 · 339 阅读 · 0 评论 -
Linux安装MySQL
Linux安装MySQL1)首先卸载自带的MySQL数据库# rpm -qa | grep mysql# rpm -e mysql-libs-5.1.71-1.el6.x86_64 --nodeps2)通过yum安装mysql# yum install -y mysql-server mysql mysql-devel3)启动mysq原创 2017-08-01 19:38:29 · 146 阅读 · 0 评论 -
Hive的简介
Hive的概念: ①Hive是为了简化用户编写MapReduce程序而生成的一种框架,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用户编程接口。Hive提供了一套类SQL的查询语言,称为QL,而在创造Hive框架的过程中之所以使用SQL实现Hive是因为大家对SQL语言非常的熟悉,转换成本低,可以大大普及我们H原创 2017-08-01 19:48:51 · 419 阅读 · 0 评论 -
Hive远程模式
Hive远程模式 生产环境下用 存放元数据的MySQL数据库服务器和Hive服务器不在同一台上,甚至放在不同的操作系统上。 【问题】 如何确保元数据的安全? 1.定期备份Mysql 2.搭建高可用的MySql集群 Hiv原创 2017-08-08 21:32:58 · 1029 阅读 · 0 评论 -
Hive企业优化
1.fetch task任务不走MapReduce,可以在hive配置文件中设置最大化和最小化fetch task任务;通常在使用hiveserver2时调整为more;设置参数的优先级:在命令行或者代码设置参数 > hive-site.xml>hive-default.xml set hive.fetch.task.conversion=more; //单次交互模式下有效,原创 2017-08-07 21:25:57 · 285 阅读 · 0 评论 -
hive数据仓库框架之日志分析
日志统计的需求:日志的统计项,包括关键词搜索量 pv ,类别访问量,每秒访问量 tps,hive就是需要将这些数据储存,并提供查询分析等功能。首先要了解hive中的哪些关键字段:1)UV:Unique Visited--- count(distinct guid)访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。2) PV:Page V原创 2017-08-08 21:47:55 · 446 阅读 · 0 评论 -
Hive中的安装和基本操作
应用环境::linux系统:hadoop数据库:mysql依需求ar包: mysql-connector-java-5.1.34-bin.jar安装Hive参考官网安装介绍:https://cwiki.apache.org/confluence/display/Hive/GettingStarted1解压hive的tar包$ tar -zxf hive-原创 2017-08-01 20:06:51 · 249 阅读 · 0 评论 -
Hive 表类型简述
表类型一、管理表或内部表Table Type: MANAGED_TABLE example:create table Inner(id int,name string,description string)//用来指定原文件的列分隔符row format delimited fields terminated by '\t';表类型二、外部表(原始数据原创 2017-08-01 21:46:37 · 1602 阅读 · 0 评论 -
Hive创建表的基本方式
创建表的方式##方式一 create + load create [external] table table_name(col1_name col1_type,...coln_name coln_type)row format delimited fields terminated by '\t';//load加载数据load data [loca原创 2017-08-02 18:56:05 · 994 阅读 · 0 评论 -
Hql中的基本查询语句(含聚合函数)
基本查询SELECT1.查询表中的某几个字段select empno,empname from emp;开发优化查询速度set hive.fetch.task.conversion=more;set hive.exec.mode.local.auto=true;2.distinct 去重select distinct(depno) from emp;原创 2017-08-02 19:07:48 · 1319 阅读 · 0 评论 -
数据仓库的建模方法
数据仓库的建模方法一: 范式建模1、每个属性值唯一,不具有多义性; 2、每个非主属性,必须完全依赖于整个主键,而非主键的一部分; 3、每个非主属性不能依赖于其他关系的属性业务数据模型转向模型,同样也需要数据仓库的域模型,也叫概念模型,同时也要有域领域的逻辑模型数据仓库的域模型比业务系统的主题范围更加广泛数据仓库的逻辑模型需要从数据模型的逻辑中的抽象实体二:维度建模...原创 2018-03-02 23:31:32 · 1885 阅读 · 0 评论