Hive
文章平均质量分 90
主要介绍hive基础和实战
GoAI
CSDN人工智能领域博客专家、新星计划计算机视觉方向导师、内容合伙人。阿里云社区专家博主、百度飞桨PPDE、飞桨校领航团团长、开源特训营导师,曾获多次AI比赛奖项及大厂实习,长期专注大数据与人工智能知识分享,相关合作和交流可私信。
展开
-
大数据电商数仓分析项目
本项目为大数据电商数仓分析项目,项目目前具体分为两大部分,第一部分:模拟常规电商数仓分析流程,利用hadoop相关生态mapreduce、spark等进行数据清洗,再通过hive、spark统计对用户行为日志及区域热门商品进行统计,支持数据导出及可视化,最终支持用户决策。第二部分:依据业务数据实现离线业务数仓导入及分层实现离线数仓搭建,统计相关业务指标,实时数仓部分后续更新。 .........原创 2021-02-19 17:02:54 · 15460 阅读 · 8 评论 -
大数据电商数仓项目
本文仅供参考学习,转发自https://blog.csdn.net/a1786742005/article/details/105833521一、项目整体架构二、数据说明2.1 用户行为数据1、启动日志数据是一个单 json 数据2、事件日志数据组成:时间戳、公共字段、事件日志事件:(1) 商品列表(2) 商品点击(3) 商品详情(4) 广告(5) 消息通知(6) 用户后台活跃(7) 评论(8) 收藏(9) 点赞(10) 错误日志2.2 业务数据1、订原创 2021-02-18 14:00:13 · 3893 阅读 · 0 评论 -
Hive数仓基本概念介绍
hive 实现wordCountselectword, count(*) AS cntfrom(selectexplode(split(sentence,' ')) wordfrom badou.article_as) tgroup by wordUDF,UDAF,UDTFUDF: 直接应用于select语句,常见的大...原创 2020-07-03 23:02:01 · 585 阅读 · 0 评论 -
Hive最全学习笔记总结
Hive学习1.Hive是什么1.1 Hive概念...原创 2020-04-17 12:57:13 · 2965 阅读 · 0 评论 -
Hive常见函数大全
Hive常用函数大全一览转载过往记忆博客:https://www.iteblog.com/archives/category/hive/文章目录1关系运算1.11、等值比较: =1.22、不等值比较:1.33、小于比较: <1.44、小于等于比较: <=1.55、大于比较: >...原创 2020-06-23 05:36:00 · 178 阅读 · 0 评论 -
数据仓库概念总结
数据仓库相关概念整理:数据仓库:英文Data WareHouse,数据仓库是面向主题,为分析数据而设计的,是一个各种数据(包括历史数据和当前数据)的中心存储系统,主要服务于商业智能(也就是BI)和企业决策管理。商业智能:指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值,帮助企业做出明智的业务决策的工...原创 2020-10-24 22:37:58 · 1064 阅读 · 0 评论 -
Hive数据分析实战
有以下几张数据表,请写出Hive SQL语句,实现以下需求。注:分区字段为dt,代表日期。1、某次经营活动中,商家发起了"异性拼团购",试着针对某个地区的用户进行推广,找出匹配用户。参考实现:选出城市在北京,性别为男的10个用户名select user_namefrom user_infowhere city=‘beijing’ and sex=‘male’limit 10;2、某天,发现食物类的商品卖的很好,你能找出几个资深吃货吗?参考实现:选出在2019年6月18日,购买的商品类是fo原创 2020-06-10 14:37:53 · 556 阅读 · 0 评论 -
大数据开发笔记(四):Hive数仓调优
详细介绍hive数据调优,包括map各阶段优化,合并小文件,hive参数及语句优化。针对数据倾斜优化。原创 2021-01-20 12:24:03 · 1420 阅读 · 0 评论 -
大数据开发笔记(四):Hive分区详解
hive分区(partition)1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节1、一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。2原创 2021-02-10 14:33:51 · 502 阅读 · 0 评论 -
大数据开发笔记(四):Hive数据仓库
Hive介绍:Hive主要解决海量结构化日志的数据统计分析,它是hadoop上的一种数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类似于SQL的查询方式,本质上来说是将Hive转化成MR程序。Hive与其它数据库的区别:Hive数据是存储在HDFS,本质上是转换成mr程序执行,因此查询效率比较慢,涉及mr程序的资源调度和任务计算;HDFS的数据操作是支持覆盖追加,它不支持update和事务;扩展性好,可以在多个集群上做应用开发;Hive的读时速度快,因为在加载数...原创 2021-01-20 12:22:47 · 2830 阅读 · 0 评论