hive
文章平均质量分 54
想艳阳天里的你
这个作者很懒,什么都没留下…
展开
-
HiveSQL DDL
HiveSQL按数据操作分类,来分别说明脚本的使用。1.DDL1.1建表说明元数据:描述数据的数据表分类:主要分内表和外表内表:元数据和数据本身均被 hive 管理。删除表则全部删除。外表:元数据被 hive 管理,数据本身存储在 hdfs,不受 hive 管理。删除表则只删除元数据,数据本身不变。1.2建表模板CREATE [external] TABLE [IF NOT EX...原创 2018-12-20 22:40:35 · 103 阅读 · 0 评论 -
Hive自定义函数UDF
UDF(user defined function)背景系统内置函数无法解决所有的实际业务问题,需要开发者自己编写函数实现自身的业务实现诉求。应用场景非常多,面临的业务不同导致个性化实现很多,故 udf 很需要。意义函数扩展得到解决,极大丰富了可定制化的业务需求。IO 要求-要解决的问题in:out=1:1,只能输入一条记录当中的数据,同时返回一条处理结果。属于最常见的系统函数,像...原创 2018-12-21 17:48:08 · 597 阅读 · 0 评论 -
Ansj 分词器,取特定词性的词
maven项目Ansj分词器分词概述:此处主要指中文分词中文分词(Chinese Word Segmentation,简称cws)指的是将一个汉字序列(一段话)切分成一个一个单独的词的过程。分词的作用中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词...原创 2018-12-16 22:10:21 · 1232 阅读 · 0 评论 -
Hive 系统函数及示例
查看所有系统函数show functions;函数分类内置函数【系统函数】数学函数:floor、round、ceil、cos、log2等字符串函数:length、reverse、trim、lower、get_json_object、repeat等收集函数:size转换函数:cast日期函数:year、month、datediff、date、date_add等条件函数:...原创 2018-12-21 15:50:42 · 433 阅读 · 0 评论 -
HiveSQL DML 内外表
2.8关于外表的说明和使用内外表的唯一区分标识,即为 external 关键字。创建表时候有,则为外表,没有则默认均为内表。内表和外表的 hdfs 目录,均可以自由指定 location,如不指定,则数据存储在 hive 的默认 hdfs 目录中,且后续均可以自由改变,但改变的场景不多,一般为了省事都不会轻易改变存储目录。示例创建外表CREATE external TABLE stude...原创 2018-12-21 12:05:04 · 156 阅读 · 0 评论 -
HiveSQL DML动态分区
2.6动态分区模式(让分区成为变量)脚本模板INSERT OVERWRITE TABLE tablenamePARTITION (partcol1[=var1], partcol2[=var2] ...) select_statement FROM from_statement设置非严格模式set hive.exec.dynamic.partition.mode=nonstric;...原创 2018-12-21 11:57:09 · 266 阅读 · 0 评论 -
HiveSQL DQL join与union
3.3join 查询将多个表通过字段关联在一起,形成查询结果创建 student_location 表,存储学生的地理位置信息CREATE TABLE student_location( id string comment 'stdno',province string comment 'province name', city string comment 'city name',re...原创 2018-12-21 11:53:46 · 196 阅读 · 0 评论 -
hql NULL 值判断
hql 中用 is NULL 或者 is not NULL 来判断字段是否是 NULL 值,与"" 没有直接关系例select * from table1where id is NULL;原创 2018-12-21 11:47:55 · 8859 阅读 · 2 评论 -
HiveSQL DQL :DISTRIBUTE BY、CLUSTER BY、Sort By、Order By
3.DQL3.1脚本模板SELECT [DISTINCT] select_expr, select_expr, ...FROM table_reference [WHERE where_condition][GROUP BY col_list [HAVING condition]] [ CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SOR...原创 2018-12-20 22:42:43 · 487 阅读 · 0 评论 -
HiveSQL DML加载数据
2、DML2.1加载数据脚本LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLEtablename [PARTITION (partcol1=val1, partcol2=val2 ...)]2.2加载本地数据文件创建一个文本文件存储的表,并以"\t"作为分隔符,方便构造和上传数据CREATE TABLE student...原创 2018-12-20 22:41:44 · 144 阅读 · 0 评论 -
Hive 数据分析函数
Hive 数据分析函数:分析函数、窗口函数、增强 Group 三类,及用于辅助表达的 over 从句。产生背景常规 SQL 语句中,明细数据和聚合后的数据不能同时出现在一张表中,而此类需求又常见。函数分类分析函数(不支持与 window 子句联用,即 ROWS BETWEEN)1、NTILE:序列分析函数,用于数据分片排序,对数据分片并返回当前分片值。(即对数据集分块,如第 1 块,第 ...原创 2018-12-22 15:44:56 · 741 阅读 · 0 评论