云计算
文章平均质量分 81
huareal
这个作者很懒,什么都没留下…
展开
-
学习Hadoop的源码
近两年在云计算方面折腾,从基础知识、到理论算法,进一步Hadoop的集群搭建、Hbase,Hive,Pig等一系列的研究;甚至Avro,ZooKeepr,mahout以及Chukwa,都有所涉足;读书破万卷,下笔有如神;对此用的再多,不如下手一试,而阅读Hadoop的源码结构也是一种修炼内功的不必可少之路;1:首先再看源码之前,至少要了解Hadoop有哪些东西,至少需要掌握了如原创 2013-07-19 23:58:55 · 866 阅读 · 0 评论 -
大数据核心技术源码分析之-Avro篇
云计算可谓当红的发紫,而作为云计算的领头羊Hadoop的生态圈,日益增大,都知道未来的海量数据时代,掌握了制高点,就等于掌握了核心和命脉;童鞋们,如果不了解云,如何还是,如果了解云,又该如何深入呢;个人也是带着疑问,一步步走来,简单一个思路,看设计原理不难,搭建环境、准备Demo也不难;给出设计思路也不算很难;但是对核心源码的分析和对设计思路的追奔溯源,需要更大的激情和毅力;一句话原创 2013-09-15 00:17:48 · 2600 阅读 · 0 评论 -
大数据核心技术源码分析之-Avro篇-2
拿到Avro-trunk下的源码,第一个分析对象就是avro-trunk_src\lang\java下的源码源码结构包括avro,compiler,ipc,mapred,protobuf,thrift等等首先切入avro中一级类集中在JsonProperties[顶级抽象类]Schema,Protocol【继承JsonProperties】SchemaNormali原创 2013-09-16 00:11:25 · 2003 阅读 · 0 评论 -
大数据核心技术源码分析之-Avro篇-3
由于篇幅大小控制,本篇继续借助分析avro下的package org.apache.avro的package分析点包括generic,io,ipc,reflect,specific,tool,util1:package genericGenericContainerpublic interface GenericContainer { /** The schema of th原创 2013-09-16 22:19:13 · 1491 阅读 · 0 评论 -
Hadoop源码分析之-MapReduce篇
Hadoop提供的两大核心HDFS和Map/Reduce,这里先拿MapReduce来分析1:实例程序,WordCount是一个典型的实例所采用的为0.20.2之后的Mapper和Reducerpublic class WordCount { public static class TokenizerMapper extends Mapper{原创 2013-09-17 00:02:14 · 909 阅读 · 2 评论 -
Hadoop的探索历程
在当下的云计算领域,数据的存储和处理模型作为整体的基石,所以想在云计算中不迷失方向,摸着这些基石,按石索骥。Hadoop本身内置的几个重要基石:HDFS:提供分布式文件系统:提供系统文件级别的抽象和封装,主从模式的架构,API接口,对应的文件的管理和监控体系。MapReduce:构建在HDFS之上,当然也可以推广到更加广泛的分布式存储平台上的并行计算模型,以Key-Value作为数据模原创 2013-10-27 14:10:30 · 760 阅读 · 0 评论 -
Hadoop跟Spark之间的持续整合
Cloudera公司作为Hadoop商业领域的翘首人物,此前就对将Mahout包装为商业应用的一个商业公司进行收购;开启大数据学习领域的云计算领域,而跟Spark商业公司Databricks的进一步合作;进一步完善HDFS数据存储模型下的另外一种流式计算模型的整合。加上Cloudera自身的Impala产品。在Hadoop领域下,或者大数据模型下的,三种计算和分析技术都集中于Cloudera公原创 2013-10-31 22:51:01 · 1086 阅读 · 0 评论 -
构思一下2013中国大数据周中的几个赛题
看到CSDN中针对第一届大数据周的几个赛题,越来越能感知数据背后的力量;先摘录一下大数据的发展过程:2012年大数据的热点问题:数据科学与大数据的学科边界数据计算的基本模式与范式大数据特性与数据态大数据的数据变换与价值提炼大数据的安全和隐私问题大数据对IT技术架构的挑战大数据的应用及产业链大数据的生态环境问题2013年度大数据发展趋势预测:数据资源化大数据隐私问原创 2013-11-22 13:11:49 · 1051 阅读 · 0 评论