hadoop ecosystem
文章平均质量分 79
me_lawrence
请阅读导航页,那是知识体系的索引。
展开
-
百度Hadoop分布式系统揭秘:4000节点集群
http://blog.nosqlfan.com/html/983.html百度Hadoop分布式系统揭秘:4000节点集群作者:nosqlfan on 星期二, 十二月 28, 2010 · 7条评论 【阅读:17,711 次】在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有研究,而且 hypertable转载 2015-09-09 10:55:19 · 867 阅读 · 0 评论 -
深入 HBase 架构解析(2)
http://blog.jobbole.com/91916/原文出处: DLevin(@雪地脚印_) 欢迎分享原创到伯乐头条前言这是《深入HBase架构解析(1)》的续,不多废话,继续。。。。 HBase读的实现通过前文的描述,我们知道在HBase写时,相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起转载 2015-09-24 11:15:15 · 726 阅读 · 1 评论 -
The Log-Structured Merge-Tree(译):上
http://duanple.blog.163.com/blog/static/7097176720120391321283/说明:转载请保留全部信息作者:Patrick O’Neil &Edward Cheng etc. 1996原文:http://www.springerlink.com/content/rfkpd5yej9v5chrp/译者:phylips转载 2015-09-24 15:42:10 · 736 阅读 · 0 评论 -
The Log-Structured Merge-Tree(译):中
http://duanple.blog.163.com/blog/static/7097176720123202125771/3.3 Multi-Component LSM-Trees对于给定的LSM-tree,参数M代表了rolling merge过程中插入到每个C1树的叶子节点中的C0树的平均记录数。在merge到C1树的节点中之前,这些新记录会首先在C0中积累一段时间转载 2015-09-24 15:44:12 · 820 阅读 · 0 评论 -
The Log-Structured Merge-Tree(译):下
http://duanple.blog.163.com/blog/static/7097176720123202219903/4.Concurrency and Recovery in the LSM-tree本节我们来研究下用于LSM-tree并发访问和恢复的技术。为此,我们需要更深入地描述出rolling merge过程。我们将该并发访问和恢复算法正确性的形式化证明作为转载 2015-09-24 15:48:40 · 1110 阅读 · 0 评论 -
window下连接hadoop集群基础超详细版
http://blog.csdn.net/lifuxiangcaohui/article/details/395001311、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.转载 2015-10-29 15:32:12 · 1524 阅读 · 0 评论 -
ZooKeeper典型应用场景一览
http://www.coder4.com/archives/3856这篇文章写的非常贴近实际,比官方好!ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍,本文将结合作者身边的项目例子,系统地对ZK的转载 2015-10-30 11:34:30 · 526 阅读 · 0 评论 -
hadoop生态系统组件目前的理解(先记录,有些地方理解不正确,后面修改)
一,yarnResourceManager、Nodemanager、App Master。ResourceManager拿到任务后,根据掌握的各个NodeManager的资源情况,决定在哪些主机上创建App Master。各个App Master与本机的NodeManager申请Container后,在本机运行启动多个map和reduce。二,hdfs原创 2015-10-30 11:20:21 · 936 阅读 · 0 评论 -
用Hadoop AVRO进行大量小文件的处理
http://blog.csdn.net/zuochanxiaoheshang/article/details/9123273使用 使用使用 使用 HDFS 保存大量小文件的缺点:1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计,每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力转载 2015-12-04 14:40:47 · 1054 阅读 · 0 评论 -
Apache Avro使用入门指南
http://www.iteblog.com/archives/1008 Avro有C, C++, C#, Java, PHP, Python, and Ruby等语言的实现,本文只简单介绍如何在Java中使用Avro进行数据的序列化(data serialization)。本文使用的是Avro 1.7.4,这是写这篇文章时最新版的Avro。读完本文,你将会学到如何使用Avro转载 2015-12-04 13:54:36 · 1680 阅读 · 0 评论 -
在Hive中使用Avro
http://www.iteblog.com/archives/1007为了解析Avro格式的数据,我们可以在Hive建表的时候用下面语句:01hive> CREATE EXTERNAL TABLE tweets02 > COMMENT "A table backed by A转载 2015-12-04 15:10:50 · 2786 阅读 · 0 评论 -
深入HBase架构解析(1)
http://blog.jobbole.com/91913/原文出处: DLevin(@雪地脚印_) 欢迎分享原创到伯乐头条前记公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,转载 2015-09-24 11:14:21 · 595 阅读 · 0 评论 -
Windows下使用Hadoop2.6.0-eclipse-plugin插件
http://my.oschina.net/muou/blog/408543摘要 经历过痛苦的过程,在windows下终于可以使用eclipse的hadoop2.6.0插件进行远程调试Mapreduce了,本文大部分内容是摘自其余的博客,但是后续也有补充完整自己在整个过程中遇到的其余问题,希望本文能够比较完善的解决hadoop2.6.0在eclipse运行的问题。本人没有经过重新编译,转载 2015-10-26 19:15:02 · 1626 阅读 · 0 评论 -
hbase整合hive
用途HBase属于Nosql不能使用HQL来进行查询,整合hive后,便于操作。基本过程参考原文链接 HBaseIntegration与已存在的HBase的‘test’表建立整合关系:原创 2015-11-11 10:28:18 · 532 阅读 · 0 评论 -
HCE助MapReduce提升资源利用率
http://articles.csdn.net/plus/view.php?aid=308119百度分布式高级研发工程师杨栋:HCE助MapReduce提升资源利用率2011-11-26 09:45 | 3521次阅读 | 【已有0条评论】发表评论来源:CSDN | 作者:CSDN | 收藏到我的网摘时至今日,“Big data”(大数转载 2015-09-09 11:08:12 · 733 阅读 · 0 评论 -
基于C++的Hadoop Map/Reduce框架--HCE
http://blog.csdn.net/michael_zhu_2004/article/details/8268805Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!、Facebook、淘宝、中移动、百度、腾讯等公司都在借助Hadoop进行海量数据处理。Hadoop系统性能不仅取决于任务调度器的分配策略,还受到分配后实际任务执行效率的影响,任务执行常常涉及转载 2015-09-09 11:18:08 · 2752 阅读 · 0 评论 -
实践:使用 Apache Hadoop 处理日志
http://www.ibm.com/developerworks/cn/opensource/os-log-process-hadoop/实践:使用 Apache Hadoop 处理日志使用典型 Linux 系统上的 Hadoop 从日志中提取有用数据日志是任何计算系统中一个必不可少的部分,支持从审计到错误管理等功能。随着日志的发展和日志来源数转载 2015-09-10 11:36:33 · 602 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
http://www.linuxidc.com/Linux/2014-03/98978.htm初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系转载 2015-09-10 15:31:44 · 440 阅读 · 0 评论 -
15种最佳方式帮你顺利掌握Hadoop技术
http://www.linuxidc.com/Linux/2015-08/121613.htm在探讨今天的主题《如何利用各类资源学习Hadoop知识》之前,让我们首先搞清楚另一个问题:大数据Hadoop到底是什么?简单来讲,Hadoop是一套用于实现大数据技术的框架方案。为了顺利掌握Hadoop,大家需要理解两项与文件存储以及数据处理紧密相关的基础知识。在Hadoop当中,我们甚至可转载 2015-09-10 15:35:14 · 401 阅读 · 0 评论 -
PageRank算法简介及Map-Reduce实现
http://blog.jobbole.com/71431/原文出处: fengfenggirl 的博客 欢迎分享原创到伯乐头条PageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerankPageRank的Page可是认为是网转载 2015-09-10 15:39:28 · 468 阅读 · 0 评论 -
基于hadoop的推荐算法-mahout版
http://blackproof.iteye.com/blog/2110877基于hadoop的推荐算法,讲其中mahout实现的基于项目的推荐算法分为4步:1.获得人-物 用户矩阵 输入为所有人对物品的评价或关联 map端输出key为人,value为物品+倾好度 reeduce端输出key为人,vallue为多个物品+倾好度转载 2015-09-10 15:50:25 · 3738 阅读 · 0 评论 -
海量数据的二度人脉挖掘算法(Hadoop 实现)
http://my.oschina.net/BreathL/blog/75112 原创博客,转载请注明:http://my.oschina.net/BreathL/blog/75112 最近做了一个项目,要求找出二度人脉的一些关系,就好似新浪微博的“你可能感兴趣的人” 中,间接关注推荐;简单描述:即你关注的人中有N个人同时都关注了 XXX 。转载 2015-09-10 15:55:19 · 552 阅读 · 0 评论 -
ZooKeeper伪分布式集群安装及使用
http://my.oschina.net/004/blog/1731428月22日珠海 OSC 源创会正在报名,送机械键盘和开源无码内裤 目录[-]ZooKeeper伪分布式集群安装及使用1. zookeeper介绍2. zookeeper单节点安装Standalones模式3. zookeeper伪分布式集群安装4. zookeeper转载 2015-08-23 11:51:59 · 434 阅读 · 0 评论 -
2015年有关Hadoop的10个预测
http://blog.jobbole.com/85181/本文由 伯乐在线 - 光光头去打酱油 翻译,sunbiaobiao 校稿。未经许可,禁止转载!英文出处:cbronline。欢迎加入翻译组。计算及商业评论杂志给出了2015年Hadoop的10个预测。既包括了企业端的Hadoop(增长率,整合),也包括了技术整合,像Spark vs Hadoop和SQL for转载 2015-09-15 10:48:58 · 453 阅读 · 0 评论 -
RPC框架系列——Avro
http://blog.csdn.net/neutrojan/article/details/9816159RPC框架系列——AvroPosted on 2011/09/09by Jeoyginin 网络, 计算机技术浏览次数:5,0671.下载与安装 官方网站:http://avro.apache.org/ 下载地址:http://labs转载 2015-12-04 14:18:50 · 617 阅读 · 0 评论