![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据基础
文章平均质量分 81
luelueking
连代码都不会敲的小再
展开
-
多维度大数据分析(hdu)第六章笔记
6.1 多维数据模型6.1.1 数据立方体 由维和事实定义维:描述数据的业务角度。维包括维属性和维成员事实:构建多维数据模型的主题。维表:每一个维都有一张维表与之相关联事实表:包括事实的名称(度量)及每个维表的关键字6.1.2 多维数据模型多维数据模型是目前最流行的数据仓库数据模型,使用DMQL定义DMQL:Data Mining Query Language,数据挖掘查询语言 数据仓库的定义:立方体定义 和 维定义 ...原创 2022-05-29 21:17:09 · 741 阅读 · 0 评论 -
大数据计算(hdu)第五章笔记
5.1 MapReduce概述5.1.1 MapReduce的来源MapReduce(最早由谷歌提出)是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1. MapReduce是一个并行程序的计算模型与方法。2. MapReduce是一个并行计算与运行的软件框架。3. MapReduce是一个基于集群的高性能并行计算平台。5.1.2 MapReduce设计思想1. 分而治之MapReduce 采用“分而治之”的设计思想,即采用一定的数据划分方法将大规模数原创 2022-05-12 20:55:12 · 494 阅读 · 0 评论 -
大数据存储进阶(hdu)第四章笔记
4.1 从关系型到NoSQL数据库4.1.1关系型数据库关系型数据库强调ACID特性,即原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。关系型数据库的优势主要有以下几点:数据一致性:由于关系型数据库支持ACID特性,可以维护数据之间的一致性。操作方便:通用的SQL语言使得操作关系型数据库非常方便,并可支持JOIN等复杂查询。易于理解:关系模型相对网状、层次等其他模型来说更容易理解。服务稳定...原创 2022-04-21 19:27:13 · 2610 阅读 · 0 评论 -
大数据存储基础(hdu)第三章笔记
3.1 HDFS简介分布式文件系统(Distributed File System,DFS):它允许文件通过网络连接的方式,在多台主机上进行多副本存储。谷歌文件系统(GFS)Hadoop分布式文件系统(HDFS)小tip:HDFS是GFS的开源实现HDFS要实现以下几个目标:1 超大文件存储2 流式数据访问3 简单的文件模型4 兼容廉价的硬件HDFS特殊的设计,导致了一定的局限性:1 不适合低延迟数据访问2 大量小文件无法高效存储3 不支持多用户写.原创 2022-04-05 22:37:36 · 2111 阅读 · 0 评论 -
大数据采集(hdu)第二章笔记
2.1大数据采集概述大数据采集技术就是指对数据进行提取(Extract)、转换(Transform)、加载(Load)操作(即ETL操作),将不同来源的数据整合成为一个新的数据集,为后续的查询和分析处理提供统一的数据视图。系统日志采集:主要用于收集来自公司业务平台、Web应用程序等产生的大量日志数据,并提供给离线和在线的大数据分析系统使用。• 采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。• 高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特...原创 2022-04-04 20:51:40 · 3187 阅读 · 0 评论 -
大数据概述(hdu)第一章笔记
1.2 大数据的定义和主要特征大数据不仅仅是数据的“规模性”,而是包含“高速性”、“多样性”和 “价值性”等多重属性。规模性:大数据摩尔定律:根据IDC作出的估测,人类社会产生的数据量一直都在以每年50%的速度增长,即每两年产生的数据量就会增加一倍。小tip:1 PB = 1024 TB,1 EB = 1024 PB,1 ZB = 1024 EB(ZB > EB >PB)多样性:高速性:1秒定律:1秒定律是互联网进入大数据时代...原创 2022-04-04 19:42:29 · 3099 阅读 · 0 评论