大数据-离线
Hadoop、Hive、Python
Simple-395
简单就好
展开
-
Hive基础语法
以下是建表语句模板,包含常用的四种数据类型:BIGINT/INT/DOUBLE/STRING;日期类型通常用BIGINT或者STRING代替;与普通SQL的区别主要在于数据类型和一些特定的设置;原创 2020-05-08 09:26:31 · 276 阅读 · 0 评论 -
Hive中你不会用的正则表达式(超实用)
背景10011001/10011002/10011003/10011004/10011005上面这个路径,如何取得最后一节,如何取得倒数第二节?你可能会用split,也可能会用udf,但我告诉你,正则可以非常优雅地帮你解决!请往下看!SELECT regexp_extract(full_code, '(\\d{8})/\\d{8}$', 1) code_2, regexp_extract(full_code, '(\\d{8})$', 1) code_1, full_code, regex原创 2021-09-09 16:41:38 · 219 阅读 · 0 评论 -
Hive进阶之UDF开发(Java版)
以下演示如何使用Java编写Hive UDF,添加依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.0.1</version></dependency>代码实现import org.apache.hadoop.hive.ql.exec.U原创 2020-08-20 12:34:07 · 869 阅读 · 0 评论 -
Elasticsearch 6.x 开启密码
Elasticsearch默认不开启密码,而实际生产环境中确认有需求。配置方式有些繁琐,如下。环境:Windows 10,Elasticsearch 6.5.4,Java 8;原创 2021-03-15 18:35:06 · 1728 阅读 · 3 评论 -
测试数据地址及格式
下载地址https://grouplens.org/datasets/movielens格式用户(u.user)用户ID年龄性别职业邮编124Mtechnician85711253Fother94043323Mwriter32067424Mtechnician43537533Fother15213电影数据(u.item)ID电影标题电影上映日期?IMDB link其他1To原创 2021-03-05 12:03:10 · 315 阅读 · 0 评论 -
Spark、Hadoop大数据平台搭建
Spark、Hadoop大数据平台搭建,推荐使用VMWare虚拟机安装。首先,需要依次安装以下应用:Spark,Scala,Hadoop,Java,Zookeeper。原创 2018-12-24 18:41:07 · 1135 阅读 · 0 评论