hadoop
文章平均质量分 87
JavaMan_chen
我就是传说中的java男!
展开
-
hive功能简介
Hive提供了类SQL语法的功能,可通过它来检索Hadoop存储数据,查询操作是基于MapReduce来完成的Hive功能1.通过select语句查询指定column的数据2.通过where语句过滤查询条件3.通过group by语句将查询结果进行分组4.执行join查询操作使用写有Join操作的查询语句时有一条原则:应该将条目少的表/子查询放在Join操作符的左边。原因是原创 2012-12-24 10:33:07 · 14022 阅读 · 1 评论 -
Nutch加Hadoop集群搭建
1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。1.1、Nutch的组件结构WebDB:存储网页数据和连接信息Fetch lists:将WebDB所存储的连接分成多个组,来用于分布式检索Fetchers:检索Fetch list中的内容并下载到本地,共有两项输出:原创 2012-01-06 09:18:15 · 6625 阅读 · 2 评论 -
hadoop counter
hadoop计数器的主要价值在于可以让开发人员以全局的视角来审查程序的运行情况,及时做出错误诊断并进行相应处理hadoop内置了很多计数器,这些计数器大体上可分为三组,MapReduce相关、文件系统相关和作业调度相关,分别统计每一个环节的处理情况,计数详情可通过http://master:50030/jobdetails.jsp界面进行查看除了内置计数器,hadoop还提供自定义计数原创 2013-02-04 15:35:10 · 8219 阅读 · 0 评论 -
HDFS之SequenceFile和MapFile
Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一存储。HDFS提供了两种类型的容器,分别是SequenceFile和MapFile。一、SequenceFileSeq原创 2012-02-08 08:56:06 · 24505 阅读 · 1 评论 -
MapReduce执行流程
MapReduce的大体流程是这样的,如图所示:由图片可以看到mapreduce执行下来主要包含这样几个步骤1.首先对输入数据源进行切片2.master调度worker执行map任务3.worker读取输入源片段4.worker执行map任务,将任务输出保存在本地5.master调度worker执行reduce任务,reduce worker读取map任务的输出文件原创 2013-02-07 18:17:27 · 23568 阅读 · 2 评论 -
hadoop的产生
大数据的概念最早是由麦肯锡这家公司提出的,他们指出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”进入2012年,大数据的概念开始被越来越多的提及,甚至已经上了纽约时报和华尔街日报的专栏封面。随着系统信息化的建设,海量数据正呈现井喷式增长,如何消化和分析这些数据从中提炼出有价值的信息是企业所要面原创 2013-02-19 12:27:12 · 3214 阅读 · 0 评论 -
Hadoop之HDFS子框架
体系结构由图片可以看到HDFS主要包含这样几个功能组件Namenode:存储文档的元数据信息,还有整个文件系统的目录结构DataNode:存储文档块信息,并且文档块之间是有冗余备份的这里面提到了文档块的概念,同本地文件系统一样,HDFS也是按块存储的,只不过块的大小设置的相对大一些,默认为64M。如果一个文件不足64M,那么它只存储在一个块中,而且并不会占用64M的磁盘空间,原创 2013-02-19 15:51:17 · 5136 阅读 · 0 评论