![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 79
大数据架构,系统学习参考文档
时光带不走丶年少轻狂
只争朝夕,不负韶华
展开
-
大数据平台网站日志分析流程
大数据平台网站日志分析系统数据采集:页面 埋点 JavaScript 采集 开源框架 Apache F lume数据预处理:Hadoop M ap R educe 程序数据仓库技术:基于hadoop 的 数据仓库 Hive数据导出:基于hadoop 的 sqoop 数据导入导出工具数据可视化:定制开发web 程序 echarts整个过程的流程调度:hadoop 生态圈中的...原创 2020-02-23 22:07:29 · 483 阅读 · 0 评论 -
数据仓库维度模型设计
**数据仓库维度模型设计**维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。维度建模是专门应用于分析型数据库 数据仓库 数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。事实表发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中。从原创 2022-03-15 23:51:10 · 311 阅读 · 0 评论 -
数据仓库理论知识
数据仓库理论知识为什么要分层分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据血缘追踪:简单来说,我们最终给业务呈现的是一个能直接使用业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。把复杂问题简单化:将一个复杂的任务分原创 2022-03-15 23:56:11 · 242 阅读 · 0 评论 -
Hbase安装启动后报错 org.apache.hadoop.hbase.PleaseHoldException: Master is initializing解决方案
org.apache.hadoop.hbase.PleaseHoldException: Master is initializingHbase 安装后创建表报错如下 :org.apache.hadoop.hbase.PleaseHoldException: Master is initializing原因:端口问题conf/Hbase-size.xml配置文件中Hadoop na...原创 2020-02-24 22:43:11 · 592 阅读 · 0 评论 -
Hbase整体基本架构
Hbase基本架构Hbase 是一个主从架构,的集群, 主角色叫做HMaster ,从角色叫做HRegionserver 部署的时候可以一主多从,也可以多住多从形成高可用机制Hbase 组成部分HMasterHMaster 节点是Hbase 集群的主角色,主要职责如下:对于表的操作DDL: create ,delete , alter 对于RegionServer 的操作,分...原创 2020-02-26 23:09:44 · 891 阅读 · 0 评论 -
hive行列转换函数使用示例
hive 行列转换函数行转列 多行合并为一列使用函数:concat_ws(‘,’,collect_set(column))collect_list 不去重collect_set 去重column 的数据类型要求是 string示例:构建测试数据vim row_to_col.txta b 1a b 2a b 3c d 4c d 5c d 6 建表create table tabname(col1 String,col2 String,col3 stirng原创 2020-12-04 18:09:17 · 723 阅读 · 0 评论 -
Hive常用函数归纳总结
Hive 常用函数一, 关系运算符等值比较: =语法: A=B操作类型: 所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE; 否则为FALSEhive> select 1 from tabname where 1=1不等值比较: <>语法: A<>B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL, 返回NULL;如果表达式A与B不相等, 则为TRUE; 否则为FALSEhive> select 1 fro原创 2020-12-04 18:07:23 · 187 阅读 · 0 评论 -
superset安装及简单使用
SupersetBI VS 报表工具报表工具是数据展示工具,而BI(商业智能)是数据分析工具。报表工具可以制作各类数据报表、图形报表的工具,甚至还可以制作电子发票联、流程单、收据等。BI可以将数据进行模型构建,制作成Dashboard,相比于报表,侧重点在于分析,操作简单、数据处理量大。常常基于企业搭建的数据平台,连接数据仓库进行分析。简介Superset是一款开源的现代化企业级BI。它是目前开源的数据分析和可视化工具中比较好用的,功能简单但可以满足我们对数据的基本需求,支持多种数据源原创 2020-11-23 14:46:14 · 27187 阅读 · 11 评论 -
Redis缓存击穿问题,缓存雪崩问题
Redis缓存击穿问题,缓存雪崩问题Redis 缓存击穿问题由于数据量比较大,mysql 数据库读写速度跟不上 使用了Redis缓存, 将常读写数据放入Redis缓存, 频繁操作的数据在Redis 不频繁操作数据在数据库,热搜词举例 ,算法计算出 热搜词放入Redis 不常用词 放入SQL 算法没有写好热搜词放入了mysql数据库中后服务器读取数据在Redis找不到 直接穿过Redis...原创 2020-03-01 23:00:50 · 256 阅读 · 0 评论