大数据
anita9999
这个作者很懒,什么都没留下…
展开
-
Hive的Transform的实现
Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的 功能又不想写 UDF 的情况,脚本一般都是python写的。Json 数据: {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}需求:把json的字段timeStamp转换为日期编号。1、先加载 rating.json 文件到 hive 的一个原始表 rate_jsoncreate table rate_jso转载 2020-09-16 18:53:42 · 282 阅读 · 0 评论 -
hive之UDF函数编程详解
UDF的定义UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了UDF的分类UDF:one to one,进来一个出去一个,row mapping。是row级别操作,如:upper、substr函数 UDAF:many to one,进来多个出去一个,row mapping。是row级别操作,如sum/min。 UDTF:one to many ,进来一个出去多个。如alteral view与ex转载 2020-09-16 18:22:39 · 1291 阅读 · 0 评论 -
hive 基础知识汇总
Hive建表方式共有三种:直接建表法 查询建表法 like建表法首先看官网介绍’[]’ 表示可选,’|’ 表示二选一1.直接建表法:Hive将HDFS上的文件映射成表结构,通过分隔符来区分列(比如’,’ ‘;’ or ‘^’ 等),row format就是用于指定序列化和反序列化的规则。比如对于以下记录:1,xiaoming,book-TV-code,beijing:chaoyang-shagnhai:pudong2,lilei,book-code,nanjing:j...转载 2020-09-16 16:40:33 · 197 阅读 · 0 评论 -
大数据相关技术入门了解
Hadoop(重点中的重点):这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大原创 2020-08-01 16:35:59 · 246 阅读 · 0 评论