Hadoop
jianxia007
这个作者很懒,什么都没留下…
展开
-
Hadoop学习笔记---基本概念
0、前言: 不做过多介绍Hadoop 网上比比皆是,每本书买来一看,第一张都是千篇一律,本文不做过多阐述,希望将此文建立在对hadoop有些了解的基础上,本文的总体流程是,先提出一个subject,然后根据关联将相关联的概念参数一并带出,虽整体不美观,但有助于将相关知识汇总记忆。 1、Hadoop 版本图: 第一个大的主线是社区版的Hadoop路转载 2014-05-04 10:47:46 · 314 阅读 · 0 评论 -
Hadoop学习笔记二---HDFS
HDFS的概念 1、数据块 HDFS跟磁盘一样也有块的概念,磁盘上块的大小一般为512字节,而文件系统的块则一般是磁盘块的整数倍,比如我当前centos块的大小事4096 也就是4K,而HDFS块的大小由参数dfs.block.size 设定默认是64M,但是与单一磁盘文件系统相似,HDFS上的文件也被分为块大小的多个分块(chunk)。 为什么HDFS中的块转载 2014-05-04 10:49:04 · 334 阅读 · 0 评论 -
flume的原理和使用
概述 flume是cloudera公司的一款高性能、高可能的分布式日志收集系统。 flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据。 flume传输的数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。 flume运行的核心是a转载 2014-05-04 14:05:30 · 470 阅读 · 0 评论 -
mahout in action 2中文版(转) 推荐器介绍
mahout in action 2 推荐器介绍 本章包括: 。介绍第一个Recommender 。推荐引擎的精确度评估 。评估一个引擎的准确度和召回 。在一个现实的例子Grouplens上评估一个Recommender 每天我们都形成对许多事情的看法,这些事情有我们喜欢的,不喜欢的,甚至不关心的。这是在不知不觉中发生的。当你在收音机上听到一首歌,你注意它,要转载 2014-05-04 18:11:01 · 555 阅读 · 0 评论 -
Hadoop学习笔记---MapReduce
1、认识MapReduce MapReduce 是一种可用于数据处理的编程模型,有一下特点: 编程模型简单,但业务实现不一定简单; Hadoop可以运行各种该语言编写的MapReduce程序,如java,python 等,很多企业为求开发效率采用python来开发MapReduce程序; MapReduce 程序是并行运行的,所以又叫批处理程序。转载 2014-05-04 10:51:02 · 291 阅读 · 0 评论 -
Flume日志收集
一、Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 设计目标: (1) 可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数转载 2014-05-04 10:44:13 · 355 阅读 · 0 评论 -
hbase 学习笔记一---基本概念
说在前面,本文部分内容来源于社区官网经过适度翻译,部分根据经验总结,部分是抄袭网络博文,(不一一列举引用,在此致歉)一并列在一起,本文的目的,希望能总结出一些有用的,应该注意到的东西,基本思路是先提出一个话题,在此话题内,把相关联的东西加进去,而不是单独分出章节单独介绍,虽然条理性欠差,但有利于后期根据关键词查找。 Apache HBase 是Hadoop database的简称,h转载 2014-05-04 10:55:38 · 379 阅读 · 0 评论