大数据经典书籍笔记
文章平均质量分 82
主要做读书笔记
weixin_43177696
这个作者很懒,什么都没留下…
展开
-
数据仓库工具箱
第1章 维度建模初步1. 操作型系统与数据仓库任何机构的信息以操作型系统的记录和数据仓库两种形式存在操作型系统:存入数据的地方,按一次一条记录的方式存入格式化数据并不断重复;数据仓库:索取数据的地方,从事对新订单计数等需要搜索大量的记录并压缩成几个答案的操作;2. 数据仓库的目标使组织结构的信息变得容易获取:让业务人员能对仓库中的数据进行切割处理的分离与合并操作;一致地展示组织机构的信息:关于数据仓库的所有定义对于用户都是共同的;具有广泛的适应性和便于修改:如果对仓库的描述性数据进行修原创 2022-04-23 13:38:54 · 1261 阅读 · 0 评论 -
大数据之路
1、数据技术篇1.1 日志采集1.2 数据同步数据同步技术是指不同系统间的数据流转,有多种应用场景:同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份;主系统与子系统之间的数据更新;不同地域、不同数据库类型之间的数据传输交换分布式业务系统与数据仓库系统之间的数据同步;直连同步通过定义好的规范接口API和基于动态链接库的方式直接连接业务库;能让不同的数据库支持完全相同的函数调用和SQL实现;配置简单,实现容易,适合操作型业务系统的数据同步原创 2022-04-23 13:37:38 · 1167 阅读 · 0 评论 -
Hive编程指南
第1章 基础知识前言Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL语言,来查询存储在Hadoop集群中的数据;Hive可以将大多数的查询转换为MapReduce任务;Hive的缺点:Hadoop和HDFS的设计限制了Hive不支持记录级别的更新、插入或者删除【但可以通过查询新表或者将查询结果导入到文件中】;由于Hadoop是面向批处理的,且MapReduce任务启动慢,所以Hive查询延时严重;Hive不支持事务;因为Hive速度慢且由于Hadoo原创 2022-04-23 13:36:08 · 1924 阅读 · 0 评论 -
Hadoop权威指南
1、Hadoop基础知识第1章 初识HadoopHadoop代替配有大量硬盘的数据库来进行大规模数据分析的原因是:传输速率(取决于硬盘的带宽)的提升远大于寻址时间(将磁头移动到特定硬盘位置进行读/写操作的过程)的提升,而数据库采用的是硬盘寻址数据访问模式,其相较于流数据读取模式(主要取决于传输速率)会花费更多时间;关系型数据库使用的数据结构是B树(受限于寻址的速率),当其只更新一小部分数据时更有优势;但遇到大规模数据时,因为需要使用**”排序/合并“来重建数据库,所以B树**的效率会明显落后于M原创 2022-04-23 13:30:33 · 2530 阅读 · 0 评论