Hive学习笔记FB
Hive学习笔记
一角残叶
人生如逆旅,我亦是行人
展开
-
Hive学习笔记(6)- Hive数据类型
1 Hive 中的数据类型主要有 5 大类1.primitive_type2. array_type3. map_type4. struct_type5. union_type1.1 primitive_typetinyintsmallintintbigintbooleanfloat2 以雇员表和部门表为例介绍 Hive 表操作...原创 2019-01-17 10:50:20 · 308 阅读 · 0 评论 -
Hive学习笔记(4)- Hive常见的几种交互操作(面试)
1 Hive常见的几种交互操作[hadoop@node1 ~]$ hive -helpusage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --defi...原创 2019-01-16 16:51:03 · 880 阅读 · 0 评论 -
Hive学习笔记(3)- Hive 运行日志的配置
1 Hive 运行日志配置[hadoop@node1 ~]$ cd $HIVE_HOME/conf[hadoop@node1 conf]$ lltotal 20-rw-r--r--. 1 hadoop hadoop 1196 Mar 24 2016 beeline-log4j.properties.template-rw-r--r--. 1 hadoop hadoop 2470 Jan...原创 2019-01-16 16:23:41 · 2770 阅读 · 0 评论 -
Hive学习笔记(2)- Hive 基本操作
1 Hive 基本操作1.1 创建表hive> create database test_hive;OKTime taken: 0.12 secondshive> show databases;OKdefaulttest_hiveTime taken: 0.017 seconds, Fetched: 2 row(s)hive> use test_hive;O...原创 2019-01-16 15:41:39 · 326 阅读 · 0 评论 -
Hive学习笔记(1)- Hive介绍 和安装配置
1 Hive 介绍Facebook 开源用于解决海量结构化日志的数据统计是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表本质: 将 HQL 转化成 MapReduce 程序灵活性和扩展性好:支持 UDF,自定义存储格式适合离线数据处理1.1 构建在 Hadoop 上的数据仓库使用 HQL 作为查询接口使用 HDFS 存储使用 MapReduce ...原创 2019-01-16 15:18:30 · 400 阅读 · 2 评论 -
Hive学习笔记(16)- Hive 实战
1 项目思路针对不同的业务创建不同的子表* 数据存储格式 orcfile /parquet* 数据压缩* map output 数据压缩 snappy* 外部表* 分区表2 实战创建表drop TABLE if exists defalut.web_log_src;create table if NOT exists default.web_log_src(rem...原创 2019-01-19 23:14:51 · 244 阅读 · 0 评论 -
Hive学习笔记(15)- Hive 优化
1 Hive 优化1.1 hive.fetch.task.conversion&lt;property&gt; &lt;name&gt;hive.fetch.task.conversion&lt;/name&gt; &lt;value&gt;more&lt;/value&gt; &lt;descriptio原创 2019-01-19 10:02:16 · 312 阅读 · 0 评论 -
Hive学习笔记(15)- Hive Storage Format
1 文件格式https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLfile_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat configuration) | RCFILE ...原创 2019-01-18 22:17:36 · 985 阅读 · 0 评论 -
Hive学习笔记(14)- Hive数据压缩
1 Hive 数据压缩1.1 编译 Hadoop 2.x安装 sanppy编译 hadoop 2.x 源码mvn package -Pdist,native -DskipTests -Dtar -Drequire.snappy2 常见的数据压缩技术压缩格式 :bzip2,gzip,lzo,snappy压缩比: bzip2 > gzip > lzo;(bzip2 最节...原创 2019-01-18 16:23:37 · 229 阅读 · 0 评论 -
Hive学习笔记(13)- HiveServer2,Beeline,JDBC
1 HiveServer2https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Overviewhttps://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients1.1 启动服务器前台启动: /bin/hiverserver22 HiveServe...原创 2019-01-18 10:11:25 · 255 阅读 · 0 评论 -
Hive学习笔记(12)- Hive UDF
1 User Defined Functionshttps://cwiki.apache.org/confluence/display/Hive/HivePluginsUDF: 一进一出UDAF(Aggregation) : 聚集函数,多进一出,类似于 count / max /minUDTF(Table-Generating) : 一进多出,例如 lateral view explor...原创 2019-01-18 09:48:01 · 284 阅读 · 0 评论 -
Hive学习笔记(11)- Hive新功能 import,export; order by,sort by,distribute by, cluster by
1 hive 的 import,exporthttps://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport1.1 export这里的导出路径指的是 HDFS 里的路径EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] ...原创 2019-01-17 22:26:28 · 224 阅读 · 0 评论 -
Hive学习笔记(10)- Hive 常见的查询
1 Hive 常见的查询https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SelectSELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY c...原创 2019-01-17 20:08:42 · 337 阅读 · 0 评论 -
Hive学习笔记(9)-导入数据到 Hive 表+ Hive数据导出
1 导入数据到 Hive 表load data [local] inpath 'filepath'[overwrite] into table tablename[partition (partcol1=val1,partcol2=val2...)]原始文件的存储位置- 本地 local- hdfs对表的数据是否覆盖- 覆盖 overwrite- 追加分区表加...原创 2019-01-17 16:48:44 · 345 阅读 · 0 评论 -
Hive学习笔记(8)- Hive分区表
1 Partitioned Tables分区表就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成更小的数据集。在查询时通过 WHERE 子句中的表达式来选择查询所需要的指定的分区,这样查询效率会提高很多;1.1 创建分区表create external table if not exist...原创 2019-01-17 13:14:59 · 525 阅读 · 0 评论 -
Hive学习笔记(7)- Hive 外部表
1 Hive 表的类型1.1 默认都是 管理表(内部表)内部表删除表时,会删除表数据和元数据;默认存在 /user/hive/warehouse,可以通过 location 指定desc formatted dept;1.2 创建外部表删除表时,只会删除元数据,不会删除表数据(在 HDFS);创建表时可以自己指定目录位置企业大部分用的外部表create external...原创 2019-01-17 11:14:27 · 871 阅读 · 0 评论 -
Hive学习笔记(5)- Hive 中数据库的基本操作
1 创建表1.1 建表方式1create table IF NOT EXISTS default.web_log( ip string COMMENT 'remote ip address', user string, req_url string COMMENT 'user request url')COMMENT 'Web Access Logs'ROW FORMAT DEL...原创 2019-01-16 19:15:36 · 371 阅读 · 0 评论