Hive
动物园园长黄华杰
Python开发/大数据开发
展开
-
Hive使用窗口函数分时间间隔规划用户会话-lag/sum
背景用户可能在app上活跃多次,而这多次界定为半个钟,也就是说,假如我7点到8点这段期间使用了app且进行了活跃操作,隔了半个钟后我重新打开了app进行了活跃的操作,假设活跃时间区间为12点到13点,那么,7-8点这段时间我们定为session1,12-13点这段时间我们定为session2思路根据时间戳reporttime来针对用户进行排序,获取这段期间的动作时间里线,使用lag进行判别,...原创 2020-05-07 09:44:04 · 1692 阅读 · 0 评论 -
Spark整合Hive完整流程,欢迎留言讨论
Spark整合Hive整合hive元数据metadataHive 的 MetaStore 是一个 Hive 的组件而 Hive 的 MetaStore 的运行模式有三种Hive开启元数据服务如果没有添加下面这一段,启动spark会报错启动hive元数据服务同时需要加载其他配置,包括HDFS测试整合hive元数据metadataMetaStore, 元数据存储SparkSQL 内置的有一个...原创 2019-10-06 19:01:39 · 617 阅读 · 0 评论 -
hive使用窗口函数实现n分位数据分析
hive使用窗口函数实现n分位数据分析hive使用窗口函数实现n分位背景hivesql实现hive使用窗口函数实现n分位实际工作中,我们可能会遇到需要获取高质量的用户、主播或者大R的白名单来进行标签输入或者精准推送促活之类的需求以下以主播中用户观看时长为例背景图片说明:横轴: 主播号纵轴: 主播当天用户观看总时长从上图我们可以得出结论,存在一批长尾用户,也就是观看时长很低的...原创 2020-04-21 09:45:23 · 1170 阅读 · 0 评论 -
Hive窗口函数练习题
每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数0: jdbc:hive2://node03:10000> create table view_log(. . . . . . . . . . . . . . > name string,. . . . . . . . . . . . . . > time string,. . . . . . . . . ....原创 2019-12-12 23:30:06 · 833 阅读 · 0 评论 -
SparkSQL整合Hive时org.apache.spark.sql.AnalysisException: Table or view not found:
报错信息org.apache.spark.sql.AnalysisException: Table or view not found: 解决方法第一步加配置文件在IDEA中resource目录中添加三个配置文件从(从自己的安装的集群上拷贝下来)第二步代码的配置import org.apache.spark.sql.SparkSessionimport org.apache.sp...原创 2019-10-22 10:18:05 · 1087 阅读 · 1 评论 -
Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hado
@[TOC](Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask (state=08S01,code=1))Hive测试环境下报错Error: Error while processing s...原创 2019-10-18 19:57:40 · 24030 阅读 · 0 评论