![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
weixin_41734687
这个作者很懒,什么都没留下…
展开
-
大数据 java01 hive udf函数(手机号码脱敏)
这里写自定义目录标题Hive UDF 函数1 POM 文件2.UDF 函数3 利用idea打包4 添加hive udf函数4.1 上传jar包到集群4.2 修改集群hdfs文件权限4.3 注册UDF4.4 使用UDFHive UDF 函数1 POM 文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://原创 2020-06-20 12:42:08 · 1278 阅读 · 0 评论 -
hive 存储格式对比
hive 存储格式对比Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。...转载 2020-01-07 15:38:42 · 141 阅读 · 0 评论 -
hive 数据倾斜原因及解决
转载 添加链接描述???? Index什么是数据倾斜数据倾斜的原因Hadoop计算框架的特点优化的常用手段优化案例???? 什么是数据倾斜我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾斜"的情况。在了解数据倾斜之前,我们应该有一个常识,就是现实生活中的数据分布是不均匀的,俗话说"...转载 2019-11-07 18:42:22 · 1107 阅读 · 1 评论 -
hive 计算 球队比赛各球队反超比分的球员姓名及时间 连续三次得分球员
球队 比赛 反超球员及连续得分球员问题计算问题:两支篮球队进行了激烈的篮球比赛,比分交替上升。比赛结束后,你有一张两队得分分数的明细表,记录了球队team,球员号码number,球员姓名name, 得分分数score 以及得分时间score_time(string,秒级)。现在球队要对比赛中表现突出的球员做出嘉奖,所以请你用sql统计出1)比赛中帮助各自球队反超比分的球员姓名以及对应时间。2...原创 2019-05-30 16:06:53 · 1434 阅读 · 0 评论 -
店铺销售异常监测和薅羊毛用户识别
店铺销售异常监测和薅羊毛用户识别一 店铺销售异常监测公司财务反应全国个别店铺短时间核销了大量优惠券三个维度进行监控识别销售收入和物料成本(物料成本上传数据有延迟)进行对比,物料成本占比大于40%,异常销售收入和优惠券核销数量对比一个用户短时间内订单数量异常或者一天该用户订单数达到10以上1.1 销售收入和物料成本异常计算店铺销售额(数据样例稍后提供)和成本(不提供数据样例,查询...原创 2019-05-22 23:31:22 · 1726 阅读 · 0 评论 -
hive 锁表 解决方法
hive表执行insert overwrite table_a partition(dt=‘20181121’) select * from table_b 时,报错FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some timeorg.apa...原创 2018-11-22 11:24:56 · 3389 阅读 · 0 评论 -
Hive 简单应用
一 Hive 使用方式1.1.Hive shell直接在hive的安装目录下,然后输入hql语句就可以了bin/hive1.2.通过Hive thrift服务启动,启动后可以远程连接启动为前台:bin/hiveserver2启动为后台:(1代表标准输出,2代表错误输出,标准输出和错误输出分别重定向到不同的日志文件)nohup bin/hiveserver2 1&amp;amp;gt;/var/l...原创 2018-11-09 00:24:39 · 179 阅读 · 0 评论 -
python3.5 连接hive(hive有密码并且集群Kerberos认证) 基本使用 pyhive
1.安装相关依赖目前python3连接hive的方法主要是使用pyhive包,但是要安装pyhive也不是那么容易的事情,因为pyhive要使用系统底层模块,所以就要先安装对应的模块。sudo yum install cyrus-sasl-develsudo yum install gcc-c++pip3 install saslpip3 install thriftpip3 ins...原创 2018-11-10 22:59:34 · 5099 阅读 · 0 评论 -
DB、ETL、DW、OLAP、DM、BI关系结构图
发现一篇好文,后期整理,目前是全文引用参考链接DB、ETL、DW、OLAP、DM、BI关系结构图DB、ETL、DW、OLAP、DM、BI关系结构图在此大概用口水话简单叙述一下他们几个概念:(1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统。DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看...原创 2018-11-10 21:38:03 · 655 阅读 · 0 评论 -
hive 安装与配置 用mysql存储元数据
安装配置mysql安装配置hive一 mysql 安装配置一、Mysql安装1、安装mysql命令:yum install mysql-server -y (-y参数作用为所有需要输入yes的地方默认yes)2、打开mysql服务:service mysqld start3、设置mysql服务开机自启动(也可以不设置,开机手动启动):chkconfig --add mysq...原创 2018-11-01 00:32:14 · 591 阅读 · 0 评论