大数据原理与应用
_qz
这个作者很懒,什么都没留下…
展开
-
MapReduce笔记
1. 概述1.1 MapReduce模型简介MapReduce 将复杂的,运行于大规模集群上的并行计算高度的抽象到了两个函数:Map 和 Reduce编程容易,不需要掌握分布式并行变成细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算。MapReduce 采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split) ,这些分...原创 2020-04-25 14:34:27 · 272 阅读 · 0 评论 -
NoSQL数据库
1. NoSQL简介通常,NoSQL数据库具有一下几个特点:灵活的可扩展性灵活的数据模型与云计算紧密融合2. NoSQL兴起的原因关系数据库已经无法满足web2.0的需求。最主要表现在以下几个方面:1. 无法满足海量数据的管理需求2. 无法满足数据高并发的需求3. 无法满足高可扩展性和高可用性的需求MySQL集群是否可以完全解决问题?复杂性: 部署,管理,配置很复...原创 2020-04-20 23:11:31 · 1269 阅读 · 0 评论 -
分布式数据库HBase
1. 概述1.1 从BigTable说起BigTable是一个分布式存储系统BigTable 起初用于解决典型的互联网搜索问题建立互联网索引爬虫持续不断的抓取新页面,这些页面每页一行的存储到BigTable里。MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备。搜索互联网用户发起网络搜索请求。网络搜索应用查询建立好的索引,从BigTable得到网页。将结...原创 2020-04-14 00:26:11 · 769 阅读 · 0 评论 -
分布式文件系统HDFS笔记
1. 分布式文件系统1.1 计算机集群结构分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专用高级硬件的并行优化处理装置不同的是,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的,这就大大降低了硬件上的开销。1.2 分布式文件系统的结构分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫...原创 2020-04-12 04:08:05 · 933 阅读 · 0 评论