big data
innerVoi
一只啥也不会的CS菜鸟,致力于探索和分享有趣的研究...目前关注:数据选择和异常检测(欢迎相关领域的研究者一起交流讨论/开展合作)
展开
-
【笔记】分布式哈希表(DHT)
Outline1.Introduction 主要设计目标: 1.去中心化 2.可扩展(随节点增加有效扩展) 3.容错(处理当有node出现故障的情形) 1.Introduction hash table通过key联系数据 在分布式哈希表(DHT)中,节点(node)是哈希桶 可能会出现的问题 Problem 1:动态的加减节点 解决办法: a. 定义一个混合的hash空间 b....原创 2020-04-29 16:36:06 · 1500 阅读 · 0 评论 -
【笔记】大数据运算系统3_内存计算系统Spark
— Outline 1.原理 2.编程 3.系统实现 — 内容 Spark:面向大数据分析的内存系统。Berkeley AMP Lab研发,可以从HDFS读数据,但是运算中数据放在内存中,不使用Hadoop,而是新实现了分布式的处理。目标是低延迟的分析操作。 Spark思路 内存容量越来越大;把数据放入多台机器的内存以避免HDFS的开销。 1.原理 基础数据结构结构RDD(Resi...原创 2020-04-17 17:23:16 · 270 阅读 · 0 评论 -
【笔记】大数据运算系统1_MapReduce & 同步图计算系统
—Outline 1.MapReduce 1.1 编程模型 1.1.1 整体思路 1.1.2 数据模型 1.1.3 word count举例 1.1.4 MapReduce和SQL Select比较 1.2 MapReduce系统架构 1.2.1 MR运行:提交作业 1.2.2 MR运行:Map Task执行 1.2.3 MR运行:Shuffle 1.2.4 MR运行:Reduce 1...原创 2020-04-15 17:29:16 · 344 阅读 · 0 评论 -
【笔记】大数据运算系统2_图计算系统(GraphLab,PowerGraph)&数据流系统
–Outline 图计算系统 GraphLab PowerGraph 数据流系统storm –内容 1.GraphLab 单机系统 共享内存 多个线程都可以访问图数据 线程之间不用发送和接收消息 异步计算 不分超步,允许不同顶点有不同的更新速度 适合支持机器学习算法,在不同部分收敛速度不同 数据模型 Data Graph G=(V, E),其中每个顶点和每条边可以有对应的...原创 2020-04-09 21:59:01 · 637 阅读 · 0 评论