分布式系统
文章平均质量分 67
顾大静
这个作者很懒,什么都没留下…
展开
-
Hadoop系列(5):MapReduce实现PageRank
1、PageRank 原理(1) 算法定义:PageRank 算法输入:所有节点的初始权重值;节点邻接矩阵;迭代次数n输出:节点权重值while i < n: for x in nodelist: PR(x) = a + (1-a)*sum(PR(t)/C(t)) end forend i其中a为常数,一般取0.15。t为与指向x的所有节点(t->x),...原创 2018-03-07 22:31:40 · 948 阅读 · 0 评论 -
Hadoop系列(4):MapReduce实现倒排索引(Inverted Index)
1、倒排索引 倒排索引常用于信息检索领域。图1展示了一个布尔检索的过程,即统计每个单词在哪些文档中出现过。当输入blue时,返回带有blue单词的所有文档编号。算法统计单词在哪些文档中出现,而不是统计文档中有哪些单词,是因为与文档数目相比,常用词表的数量小的多。 ...原创 2018-03-06 14:42:59 · 763 阅读 · 1 评论 -
Hadoop系列(3): MapReduce
1、MapReduce工作流程分析 图 1 MapReduce 工作流程 MapReduce框架适用于大规模数据的并行计算,对于需要在不同机器间频繁同步的应用并不适用。保持节点间数据同步而产生的通信开销会使得系统效率低。MR框架也不...原创 2018-03-04 23:25:43 · 190 阅读 · 0 评论 -
Hadoop系列(2): Hadoop 1.x VS Hadoop 2.x
1、Hadoop 1.x 的局限性 (1) 扩展性 集群最大节点数-4000;最大并发任务数40000; (2) 可用性 JobTracker负载较重,存在单点故障 (3)批处理模式,时效性低 仅支持MapReduce一种计算方式 (4) 低效的资源管理 资源强制划分为map task slot和reduce ...原创 2018-03-03 17:17:05 · 232 阅读 · 0 评论 -
Hadoop系列(1):HDFS原理
HDFS(Hadoop Distributed File System)原理1、分布式文件系统(1)为什么需要分布式文件系统?传统的文件系统最大的问题是容量和吞吐量的限制。多用户应用的并行读写是分布式文件系统产生的根源。2、HDFS设计目标基于廉价的普通硬件,可以容忍硬件出错;可以处理大数据集 HDFS的存储量可以达到PB,EB级别,适合存储单个大文件简单的一致性模型 一次写...原创 2018-03-02 23:51:32 · 251 阅读 · 0 评论 -
预测Hadoop Job最终执行时间
由于某项工作需要预测MapReduce Job最终执行结果,预测方法需要有Job提交时系统的一些特征,所以需要修改Hadoop源码,获取系统特征,重点修改了JobSubmitter.java。 (1)获取系统中正在运行的Job数量,及Task数量 JobStatus jobStatus[] =cluster.getAllJobStatuses(); for(int i...原创 2017-01-06 11:04:18 · 848 阅读 · 0 评论 -
Mac下编译Hadoop2.6.0源码
1、环境搭建 (1)Hadoop官网下载Hadoop2.6.0源码(hadoop-2.6.0-src.tar.gz) https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/ 解压缩命令:tar -xvzf hadoop-2.6.0-src.tar.gz (2)按照building.txt文件中的内容安装...原创 2017-01-06 10:28:25 · 1484 阅读 · 0 评论 -
Hadoop系列(7):数据存储之数据存储模型
数据存储模型1、关系模型 主要以表的形式存储数据,表中每一行(row)为一个记录,每列都有名称和类型2、NoSQL模型:(1)键值对数据模型 有一个特定的key和一个value指针,指向特定的数据。 适用:通过key对数据进行查询和修改等操作 不适用:侧重于批量查询、更新的海量存储系统,以及复杂逻辑操作 优点:数据模型简单、易于实现 缺点:由HashTable实...原创 2018-03-14 23:28:34 · 536 阅读 · 0 评论 -
Hadoop系列(6): MapReduce 与 Databases
1、传统数据库与MapReduce区别传统数据库: (1)可以处理多任务:分析类任务,事物(transactions);批处理,交互式; (2)数据一致性通过ACID保证(原子性、一致性、隔离性、永久性) (3)许多数据报表工具支持 (4)支持SQL语言 (5)自动SQL查询优化MapReduce: (1)为大规模集群设计的,具有容错性; (2)数据以原始格式...原创 2018-03-07 23:27:09 · 214 阅读 · 0 评论 -
Hadoop系列(8):数据存储之数据分区及放置策略
1、分区的定义及作用定义:将表、索引或索引编排细分为更小的段,数据库对象的每一个段称为区。作用:分区操作可以并行执行;分区之间相互独立,系统可用性高;查询操作可以仅查询部分分区而不是整个数据库。2、分区方式(1)范围分区范围分区:按照数据表中某个值得范围进行分区,根据值得范围决定数据所在分区。主要特点:能够根据数据的范围,将不同范围的数据存储在不同的分区。适用:按照时间范围存储数据的系统(日志)(...原创 2018-03-31 16:45:22 · 3153 阅读 · 0 评论