数据仓库实战二
路漫漫其修远兮,吾将上下而求索
睡覺了
我现在能做的,便是以一段拙劣的文字来祭奠我那段流逝的岁月
展开
-
Hive_知识点
Hive 组成元数据:描述数据的数据 内部执行流程 : 编译器(把SQL语句编译成MapReduce程序) 解析器(解析器SQL语句) 优化器(优化MapRedue程序) 执行器(将MapReduce程序运行的结果提交到HDFS) 处理引擎 MR:MapReduceHive 与 Mysql 的区别除了语法接近 ,其他都不一样 数据量 : 数据量越大 Hive 优势大 ,数据量小,mysql 速度:数据量越大 Hive越快,数据量小 mysql 越快 查询:Hive...原创 2020-10-23 15:42:53 · 439 阅读 · 0 评论 -
Hive_表优化
表优化案例二三设置多个 reducer生产中 reducer 有 很多个 ,所以会产生数据倾斜 ,那么我们随机分布空 值 ,按什么呢 ,对比 ,解决数据倾斜...原创 2020-10-22 15:58:52 · 410 阅读 · 0 评论 -
Hive_DML_数据操作
数据导入覆盖通过查询语句 插入数据多插入模式 : 将 from 那张表 单独 提出 查询多个结果 可以用union select a union select b根据查询结果创建表创建表 通过 location 指定加载数据路径数据导出...原创 2020-10-22 15:37:47 · 237 阅读 · 0 评论 -
Hive_DDL
创建数据库切换与修改数据库扩展看 详细信息 desc 和 描述desc database extended table_name;描述desc formatted table_name;删除数据库创建表[ ] 中括号 表示 可选项 comment 添加注释 partitioned by 分区 clo_name 列名 clustered by 分桶 stored as f...原创 2020-10-22 15:07:19 · 146 阅读 · 0 评论 -
数据生成
埋点数据基本格式公共字段:基本所有安卓手机都包含的字段 业务字段:埋点上报的字段,有具体的业务字段 例 : 示例日志:事件日志数据数据生成脚本springboot 代码 接收数据日志行为数据模拟 控制延时时间:再往下 new 一个事件数组配置日志...原创 2020-10-21 16:04:51 · 196 阅读 · 0 评论 -
项目需求_技术选型_集群规划
项目需求一 用户行为数据平台采集搭建将文件导入到数仓二 业务数据采集平台搭建将mysql 数据导入到数仓三 数据仓库维度建模书籍: 数仓工具箱(将理论实现)四 分析用户、流量、会员、商品、销售、地区、活动 等电商核心主题,统计的报表指标近100多个。五 采用即席查询工具,随时进行指标分析快速查询数据六 集群监控对集群性能进行监控,发生异常需报警 第一时间发现异常七 元数据管理八 质量监控例:日活跃 平均在 1w ,突然有一天猛增为100w ,可能是算错了..原创 2020-10-21 15:02:29 · 405 阅读 · 2 评论 -
数仓概述
数据仓库(Data Warehouse) ,是为企业指定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。数据仓库的数据怎么来 ?爬虫数据重点:爬虫不要操作过度否则就面向 jy 编程了用户行为数据用户来到网站,跟网站或者客户端进行一个交互,所产生的数据。 存储在 日志服务器 以文件形式存储业务数据存储在 mysql 数据库处理用户行为数据,日志文件数据Flume实时采集日志文件,将它上传到数据仓库中处理业务数据Sqo...原创 2020-10-21 15:03:40 · 453 阅读 · 0 评论 -
数仓概念
业务数据各行业在处理事务过程中产生的数据 。例: 用户在某商品网站上登录,下单,支付等过程中产生的数据就是 业务数据那么 业务数据 通常存储在 mysql ,oracle 等数据库中用户行为数据用户在使用产品过程中,与客户端交互过程中产生的数据,比如页面浏览,点击,停留,点赞,评论,收藏等例:用户点击商品 ,在商品页面停留,收藏该商品等等操作 ,后续我们对这些数据进行规划,就可以达到促销效果。那么用户行为数据通常存储在日志文件中 查看用户行为数据1 上商品网...原创 2020-10-21 15:03:51 · 223 阅读 · 0 评论 -
数仓岗位
在目前已知企业中,大数据内部结构如下平台组负责框架搭建,安装 集群性能监控 例:如果某个集群运行过程中突然挂掉,或者某台机器性能 内存不够用 。 那么怎么能将这些问题立刻发现 找到 并解决,这就是集群性能监控。 集群性能调优 那么以上三点的工作岗位,统称为 “ 大数据平台工程师 ”数据仓库组ETL 工程师(数据清洗) 例:清洗数据主要包括 空值,重复数据,过期数据等等通过 kettle 或者其他一些技术手段 过滤掉。 数据分析 (数据仓库建模) 它是数据仓...原创 2020-10-21 15:04:06 · 1807 阅读 · 0 评论