hadoop
文章平均质量分 70
hua840812
这个作者很懒,什么都没留下…
展开
-
PIG LATIN分析报告
Pig Latin分析报告Pig Latin简介对海量数据的按需分析处理需求不断增加,尤其是对于因特网公司,它们的技术革新主要依赖于对每天收集的数据的分析处理能力。要提高如此巨大数据集的存储和分析效率,必须采用高度并行的系统,例如:shared-nothing cluster。并行数据库产品,如:Teradata 提供了一种解决方案,但是这种方案的web规模扩展开销太大,性价比转载 2014-03-07 12:07:27 · 709 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。 读者通过本文中新旧 hadoop map-reduce 框架的对比,更能深刻理解新的 yarn 框架的技术原转载 2014-03-27 10:55:19 · 639 阅读 · 0 评论 -
Lucene和Solr 学习目录
http://blog.csdn.net/liuweitoo/article/details/8124440几个概念先行说明一下:Lucene: 是一个索引与搜索类库,而不是完整的程序。Solr:是一个高性能,采用Java5开发,基于Lucene的一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。Nutch:是一个由Java实现的,转载 2013-12-30 11:19:18 · 857 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapRe转载 2013-08-20 15:25:27 · 712 阅读 · 0 评论 -
ZooKeeper是什么
ZooKeeper是什么ZooKeeper是分布式应用中的一种框架。ZooKeeper能干什么哪?我总结了一句话,就是:ZooKeeper是用来保证数据在集群间的事务性一致。我们细细品一下这句话,可以获得以下认识:ZK是集群部署的;集群之间是传递数据的;集群之间传递的数据必须保证在各个节点之间的事务性一致;这是我们获得的认识。下面谈一谈,ZK到底是怎么一回事?简转载 2014-03-29 10:31:14 · 621 阅读 · 0 评论 -
Hadoop工具生态系统指南
Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。 HadoopApache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。网址:hadoop.apache.org HDFS分布式文件系统提供高速的应用数据访问。网址:hadoop.apache.转载 2013-07-31 14:45:31 · 717 阅读 · 0 评论 -
Facebook 如何存储150亿张、1.5PB的照片
From:http://kiya.cn/2009/05/efficient-storage-of-billions-of-photos/Facebook 的照片分享很受欢迎,迄今,Facebook 用户已经上传了150亿张照片,加上每张照片有四个不同尺寸的缩略图,就共有600多亿张图片,总容量超过1.5PB,而每周新增的照片为2亿2000万 张,约25TB,高峰期,Facebook 每秒处转载 2013-01-11 12:53:26 · 932 阅读 · 0 评论 -
分布式搜索Lily安装与配置
http://blog.csdn.net/morning_pig/article/details/8569842参考文档:http://docs.ngdata.com/lily-docs-current/414-lily/432-lily.html1.Installing Hadoop, HBase and ZooKeeper此处省略几百字...转载 2013-12-30 11:05:04 · 1570 阅读 · 0 评论 -
hadoop版本及cloudera的CDH3 CDH4
hadoop有两个分支:0.20.x 和0.23.x。其中0.20.x是比较稳定的版本,0.23.x中新特性更多,但相对不稳定。 其中从0.20.x 分支发展出来的是:hadoop1.0,CDH3从0.23.x 分支发展出来的是:hadoop-alpha,CDH4 下面具体说hadoop1.0、2.0 和CDH3、CDH4: Apache Hadoop 2012年10转载 2013-08-20 15:21:31 · 919 阅读 · 0 评论 -
Chukwa 0.4.0 详细安装流程
转自:http://blog.csdn.net/jostey/article/details/70683221.安装好hadoop,确保hadoop运行无误(我hadoop版本为0.20.2) 2.去官网上下载chukwa 0.4.0版本:http://www.apache.org/dyn/closer.cgi/hadoop/chukwa/chukwa-0.4.0 3.下载转载 2012-11-29 16:14:04 · 987 阅读 · 0 评论 -
Apache Hadoop(Cloudera CDH4)安装需要注意的几点
转自:http://blog.csdn.net/zzhua100/article/details/7823971 Cloudera CDH4安装方法有三种:1、通过Cloudera Manager自动安装(只支持64bit linux操作系统);2、通过资源包,利用Yum命令手工安装;3、通过下载的tarball包,手工安装; 个人建议1、2两种都尝试,转载 2012-10-30 13:50:50 · 5219 阅读 · 2 评论 -
Hadoop内置作业调度器与调度平台的集成
转自:http://www.xiaohui.org/archives/category/%E6%8A%80%E6%9C%AFHadoop 现在几乎已经成为业界在大数据上事实的标准,越来越多的企业开始采用hadoop进行数据的存储及处理。既然涉及数据处理,一个不可不提的术语就是“作业” or “job”,大量的作业必然要引入作业管理及调度,hadoop也不能例外。传统企业中的调度工具转载 2012-10-30 14:19:24 · 4970 阅读 · 0 评论 -
Hadoop2.0术语解释
2.2 Hadoop基础知识2.2.1 术语解释为了便于本书讲解Hadoop YARN,本小节对Hadoop涉及的术语进行比较全面的介绍。(1)Hadoop 1.0 Hadoop 1.0即第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobT转载 2014-06-16 16:04:51 · 649 阅读 · 0 评论 -
Hadoop0.23.0初探1---前因后果
最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0),它标志着Hadoop新时代的到来。本文作为系列文章的第一篇,将结合Hadoop-0.20.*的特点,以及Hadoop核心理念,分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性HDFS单NameNode的不足 1)扩展性问题。可以随着数据量进行转载 2014-06-16 16:04:02 · 642 阅读 · 0 评论 -
突破社区版 Hadoop各商业发行版比较
转自:http://www.db2china.net/club/viewthread.php?tid=26467Hadoop的发行版除了社区的Apache hadoop外,cloudera,hortonworks,mapR,EMC,IBM,INTEL,华为等等都提供了自己的商业版本。商业版主要是提供 了专业的技术支持,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各发行版做转载 2012-10-30 14:52:33 · 1790 阅读 · 0 评论 -
Apache Hadoop NextGen MapReduce (YARN)
转自:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.htmlMapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what we call, MapReduce 2.0 (MRv2) or YARN.转载 2013-08-20 16:36:23 · 512 阅读 · 0 评论 -
Flume日志收集
一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先转载 2013-09-17 14:22:47 · 608 阅读 · 0 评论 -
按日期删除HDFS数据
转自:http://blog.csdn.net/eryk86/article/details/7472346import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.HashSet; import jav转载 2012-04-18 10:05:30 · 3158 阅读 · 0 评论 -
Apache hadoop当前各个版本说明
当前apapche hadoop有几种不同的版本,首先从官方网站截个图(注意,今天是2013年8月21日):对照上图进行相应说明:1.2.X - 当前可使用的最稳定的版本2.X.X - 当前的最新版的alpha版本0.23.X - 跟 2.X.X 版本相似但是没有NN和HA.0.22.X - 不包括安全功能0.20.203.X - 老的稳定版本转载 2014-03-14 11:08:35 · 1606 阅读 · 0 评论 -
Hadoop发行版的比较与选择
Hadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各个发行版做简单介绍。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoo转载 2014-03-14 11:02:13 · 579 阅读 · 0 评论 -
Lily:基于Solr、HBase、Zookeeper云计算上的内容仓库
http://blog.csdn.net/morning_pig/article/details/8571091Lily是什么Lily是一个可扩展的数据仓库。用于数据的存储和搜索。Lily是一个分布式系统,她并不是白手起家的,她依赖于两个已有的OpenSource软件,一个是HBase, 另一个是SOLR. 同时Lily对于使用者提供自己的操作接口,称作Lily API.转载 2013-12-30 11:05:51 · 789 阅读 · 0 评论 -
开源日志系统比较
转自:http://dongxicheng.org/search-engine/log-systems/1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和转载 2012-04-14 14:37:19 · 1025 阅读 · 0 评论 -
hadoop 添加kerberos认证
参考Cloudera官方文档:Configuring Hadoop Security in CDH3一、部署无kerberos认证的Hadoop环境参考另一篇笔记:hadoop集群部署或者按照Cloudera的官方文档:CDH3 Installation Guide.二、环境说明1、主机名之前部署hadoop集群时,没有使转载 2014-03-21 11:24:55 · 4011 阅读 · 0 评论 -
HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝(TFS)
一、概述手机图片或者像淘宝这样的网站中的产品图片特点:(1)、大量手机用户同时在线,执行上传、下载、read等图片操作(2)、文件数量较大,大小一般为几K到几十K左右 HDFS存储特点:(1) 流式读取方式,主要是针对一次写入,多次读出的使用模式。写入的过程使用的是append的方式。(2) 设计目的是为了存储超大文件,主转载 2013-01-11 12:54:11 · 795 阅读 · 0 评论 -
图解Hadoop生态系统
GigaOM总结的Hadoop生态系统图,基本覆盖了主流的Hadoop相关企业。尽管Hortonworks或Cloudera掌握了大量核心技术并推出了发行版,Oracle、Teradata等传统数据挖掘企业虽然缺少Hadoop核心技术,但却掌握着渠道。【CSDN综合编译】虽然Hortonworks和Cloudera在Apache Hadoop统治力排行榜上分列一、二,但在整理Hadoo转载 2014-03-25 11:58:43 · 463 阅读 · 0 评论 -
[Hadoop]Pig与Hive的区别
请允许我很无聊的把飞机和火车拿来做比较,因为2者根本没有深入的可比性,虽然两者都是一种高速的交通工具,但是具体的作用范围是截然不同的,就像Hive和Pig都是Hadoop中的项目,并且Hive和pig有很多共同点,但Hive还似乎有点数据库的影子,而Pig基本就是一个对MapReduce实现的工具(脚本)。两者都拥有自己的表达语言,其目的是将MapReduce的实现进行简化,并且读写操作数据最终都转载 2014-03-07 11:50:02 · 719 阅读 · 0 评论 -
通过sqoop 实现hdfs与mysql的数据导入导出
做这个实验需要安装好了hadoop环境,还需要一台mysql服务器(可以是单独的主机,也可以是hadoop集群中的任一一台)先搞清sqoop,mysql,hdfs 3者之间的关系mysql 与 hadoop集群之间没有直接联系,是通过第三方软件sqoop实现的mysql --> sqoop --> hdfs mysql 1 下载安装sqoop,在hadoop集群的任一一个节转载 2013-08-21 14:40:31 · 1482 阅读 · 0 评论 -
Hadoop性能分析工具Hitune的安装(centos)
转自:http://blog.csdn.net/jostey/article/details/7078797简介:Hitune是建立在chukwa之上的对于hadoop的分析软件,不过hitune的呈现方式是通过excel来展示的,感觉上他对于hadoop的分析更为透彻和具体,下面给几个它分析得到的图片: 安装流程:1.装备好hadoop,确保hadoop是正确的转载 2012-11-29 16:11:31 · 824 阅读 · 0 评论 -
Hadoop生态图谱
转自:http://www.kuqin.com/system-analysis/20120219/318275.html当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。这一切,都起源自Web数据爆炸时代的来临数据抓取系统转载 2012-04-18 11:42:15 · 844 阅读 · 0 评论 -
"Big Data"- Reporting Over Hadoop using Hive-Intellicus 5.2
https://www.intellicus.com/product/documents/release_notes/5.2/Hadoop.htm"Big Data"- Reporting Over Hadoop using HiveIntellicus 5.2 forays into the "Big Data" world by providing Reporting over转载 2014-03-29 10:58:11 · 973 阅读 · 0 评论 -
Hadoop2.0的HA介绍
前一篇文章介绍了Hadoop2.0(hadoop2.0架构,具体版本是hadoop2.2.0)的安装和最基本的配置(见http://www.linuxidc.com/Linux/2014-05/101173.htm ),并没有配置HA(High Avalability,高可用性),接下来的文章中会介绍hadoop2.0HA的配置。在介绍hadoop2.0的HA配置之前,本文先介绍hadoop2转载 2014-06-16 16:50:41 · 674 阅读 · 0 评论