博客专栏  >  云计算/大数据   >  big data

big data

HDFS,Hbase,Hive,mapreduce,spark,MLlib,mahout工具学习

关注
1 已关注
9篇博文
  • Hbase数据模型与table设计

    最近在学习Hbase的使用,并仔细阅读了一篇官方推荐的博客,在这里就以一边翻译一边总结的方式和大家一起梳理一下HBase的数据模型和基本的表设计思路。 官方推荐的博客原文地址:http://0b4a...

    2017-03-26 14:15
    287
  • combiner的使用误区

    问题提出: 众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。    在上述过程中,我们看到...

    2017-04-09 17:18
    343
  • mapreduce过程

    如大家所知道的,Hadoop的计算框架主要是两个过程分别是map和reduce,但是还有好几个过程跟性能调优有关。如:shuffle、partition和combiner。 shuffle:数据从m...

    2017-04-09 18:49
    123
  • mapreduce计算均值combine加速

    import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.con...

    2017-04-12 19:06
    210
  • 图计算模型GraphLab——pregel原理API

    简介 在Hadoop兴起之后,google又发布了三篇研究论文,分别阐述了了Caffeine、Pregel、Dremel三种技术,这三种技术也被成为google的新“三驾马车”,其中的Pregel是g...

    2017-04-15 15:52
    588
  • 局部敏感哈希算法

    阅读目录 1. 基本思想 2. 局部敏感哈希LSH  3. 文档相似度计算   局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间...

    2017-05-22 11:31
    157
  • 磁盘中存取信息的最小单位是?

    从应用程序包括用户界面的角度来看,存取信息的最小单位是Byte(字节); 从磁盘的物理结构来看存取信息的最小单位是扇区,一个扇区是512字节; 从操作系统对硬盘的存取管理来看,存取信息...

    2017-05-24 15:36
    161
  • 一致性哈希算法(consistent hashing), p2p关键技术

    一致性 hash 算法( consistent hashing ) 张亮 consistent hashing 算法早在 1997 年就在论文 Consistent hashing and rand...

    2017-05-26 20:38
    17423
  • Quorom机制

    Quorom 机制,是一种分布式系统中常用的,用来保证数据冗余和最终一致性的投票算法,其主要数学思想来源于鸽巢原理。   什么是鸽巢原理?    其中一种简单的表述法为:    若有n个笼子...

    2017-05-26 21:25
    100
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部