big data
innerVoi
一只啥也不会的CS菜鸟,致力于探索和分享有趣的研究...目前关注:数据选择和异常检测
展开
-
【笔记】分布式哈希表(DHT)
Outline1.Introduction主要设计目标:1.去中心化2.可扩展(随节点增加有效扩展)3.容错(处理当有node出现故障的情形)1.Introductionhash table通过key联系数据在分布式哈希表(DHT)中,节点(node)是哈希桶可能会出现的问题Problem 1:动态的加减节点解决办法:a. 定义一个混合的hash空间b....原创 2020-04-29 16:36:06 · 1370 阅读 · 0 评论 -
【笔记】大数据运算系统3_内存计算系统Spark
— Outline1.原理2.编程3.系统实现— 内容Spark:面向大数据分析的内存系统。Berkeley AMP Lab研发,可以从HDFS读数据,但是运算中数据放在内存中,不使用Hadoop,而是新实现了分布式的处理。目标是低延迟的分析操作。Spark思路内存容量越来越大;把数据放入多台机器的内存以避免HDFS的开销。1.原理基础数据结构结构RDD(Resi...原创 2020-04-17 17:23:16 · 238 阅读 · 0 评论 -
【笔记】大数据运算系统1_MapReduce & 同步图计算系统
—Outline1.MapReduce1.1 编程模型1.1.1 整体思路1.1.2 数据模型1.1.3 word count举例1.1.4 MapReduce和SQL Select比较1.2 MapReduce系统架构1.2.1 MR运行:提交作业1.2.2 MR运行:Map Task执行1.2.3 MR运行:Shuffle1.2.4 MR运行:Reduce1...原创 2020-04-15 17:29:16 · 287 阅读 · 0 评论 -
【笔记】大数据运算系统2_图计算系统(GraphLab,PowerGraph)&数据流系统
–Outline图计算系统GraphLabPowerGraph数据流系统storm–内容1.GraphLab单机系统共享内存多个线程都可以访问图数据线程之间不用发送和接收消息异步计算不分超步,允许不同顶点有不同的更新速度适合支持机器学习算法,在不同部分收敛速度不同数据模型Data Graph G=(V, E),其中每个顶点和每条边可以有对应的...原创 2020-04-09 21:59:01 · 563 阅读 · 0 评论