- 博客(6)
- 收藏
- 关注
原创 数据仓库工具箱
第1章 维度建模初步1. 操作型系统与数据仓库任何机构的信息以操作型系统的记录和数据仓库两种形式存在操作型系统:存入数据的地方,按一次一条记录的方式存入格式化数据并不断重复;数据仓库:索取数据的地方,从事对新订单计数等需要搜索大量的记录并压缩成几个答案的操作;2. 数据仓库的目标使组织结构的信息变得容易获取:让业务人员能对仓库中的数据进行切割处理的分离与合并操作;一致地展示组织机构的信息:关于数据仓库的所有定义对于用户都是共同的;具有广泛的适应性和便于修改:如果对仓库的描述性数据进行修
2022-04-23 13:38:54 1276
原创 大数据之路
1、数据技术篇1.1 日志采集1.2 数据同步数据同步技术是指不同系统间的数据流转,有多种应用场景:同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份;主系统与子系统之间的数据更新;不同地域、不同数据库类型之间的数据传输交换分布式业务系统与数据仓库系统之间的数据同步;直连同步通过定义好的规范接口API和基于动态链接库的方式直接连接业务库;能让不同的数据库支持完全相同的函数调用和SQL实现;配置简单,实现容易,适合操作型业务系统的数据同步
2022-04-23 13:37:38 1175
原创 Hive编程指南
第1章 基础知识前言Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL语言,来查询存储在Hadoop集群中的数据;Hive可以将大多数的查询转换为MapReduce任务;Hive的缺点:Hadoop和HDFS的设计限制了Hive不支持记录级别的更新、插入或者删除【但可以通过查询新表或者将查询结果导入到文件中】;由于Hadoop是面向批处理的,且MapReduce任务启动慢,所以Hive查询延时严重;Hive不支持事务;因为Hive速度慢且由于Hadoo
2022-04-23 13:36:08 1938
原创 Hadoop权威指南
1、Hadoop基础知识第1章 初识HadoopHadoop代替配有大量硬盘的数据库来进行大规模数据分析的原因是:传输速率(取决于硬盘的带宽)的提升远大于寻址时间(将磁头移动到特定硬盘位置进行读/写操作的过程)的提升,而数据库采用的是硬盘寻址数据访问模式,其相较于流数据读取模式(主要取决于传输速率)会花费更多时间;关系型数据库使用的数据结构是B树(受限于寻址的速率),当其只更新一小部分数据时更有优势;但遇到大规模数据时,因为需要使用**”排序/合并“来重建数据库,所以B树**的效率会明显落后于M
2022-04-23 13:30:33 2541
原创 MapReduce专题
1. 概念1.1 设计构思MapReduce是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发布在Hadoop集群上;核心思想是分而治之,即把复杂的任务分解为若干个“简单的任务”来并行处理,最后对这些小任务的结果进行全局汇总,适合并行计算相互间不具有计算依赖关系的大数据,但不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算1.2 抽象模型:Map和ReduceMapReduce定义了如下的Map和Reduce两个抽象的编程接口
2022-04-23 13:27:32 1677
原创 HDFS专题
1. 概念1.1 背景当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对他进行分区并存储到若干计算机上,其中管理网络中跨多台计算机存储的文件系统称为分布式文件系统,在Hadoop中称为HDFS,即Hadoop Distributed Filesystem。1.2 写数据流程Client发起文件上传请求,通过**RPC(远程过程调用协议)**与NameNode建立通讯,NameNode检查目标文件、父目录是否已存在,返回是否可以上传;Client请求第一个block该传输到哪些Dat
2022-04-23 12:41:58 756
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人