hadoop
文章平均质量分 84
aturbofly
小硕一枚,码农一个。酷爱编程。热爱互联网。目前主要从事自然语言处理,推荐方面的算法开发。
研究生期间的研究方向:推荐系统。
展开
-
MapReduce手册(官网)
综述Hadoop MapReduce是一个软件框架。它能够很容易的创建以一种可靠,容错的方式在商用机器上的大集群上并行的处理大量的数据。 一个MapReduce job通常将输入的数据集拆分成独立的块。Map任务以完全并行的方式处理这些块。框架对map的输出进行排序,进而作为输入提供给reduce任务。通常来说,job的输入和输出都保存在一个文件系统中。框架负责调度任务,监控任务并重新翻译 2015-08-24 16:18:16 · 2546 阅读 · 0 评论 -
HDFS架构指南(官网)
简介Hadoop分布式文件系统(HDFS)是一个设计用来运行在商业机器上的分布式文件系统。它和已存在的分布式文件系统有很多相似之处。当然,和其他分布式文件系统的区别也是非常明显的。HDFS是高容错的,它设计用来部署在低成本的机器上。HDFS提供高吞吐量访问应用数据,对于拥有大数据集的应用非常适合。HDFS最开始是作为ApacheNutch web搜索引擎工程的基本部件开发的。现在,HDFS是A翻译 2015-08-25 17:11:13 · 1860 阅读 · 0 评论 -
Name node is in safe mode.
[root@master bin]# ./hadoop fs -mkdir /user/hive/warehousemkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/hive/warehouse. Name node is in safe mode.转载 2015-08-26 09:51:35 · 1219 阅读 · 0 评论 -
java通过JDBC驱动连接操作hive实例
Hive提供了jdbc驱动,使得我们可以用java代码来连接Hive并进行一些类关系型数据库的sql语句查询等操作。首先,我们必须将Hive的服务,也就是HiveServe打开。在Hive 0.11.0版本前,只有HiveServer服务可用,但是HiveServer本身存在很多问题(比如:安全性、并发性等);针对这些问题,Hive-0.11.0版本后提供了一个全新的服务:HiveServer2,原创 2015-10-16 15:27:12 · 11265 阅读 · 0 评论 -
倒排索引的分布式实现(MapReduce程序)
package aturbo.index.inverted;import java.io.IOException;import java.util.HashSet;import org.apache.commons.lang3.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.had原创 2016-04-11 19:34:04 · 1258 阅读 · 0 评论 -
分布式倒置索引(MapReduce程序)
package aturbo.index.inverted;import java.io.IOException;import java.util.HashSet;import org.apache.commons.lang3.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.had原创 2016-04-18 21:06:14 · 1004 阅读 · 0 评论 -
Impala性能调优
一、给表分区这个都知道,默认一个表的数据都是放在一个目录下的,对表分区,能够创建一些子目录,查询的时候,指定相应的条件能够实现只去相应的分区下查找数据,。 那么,什么情况下应该对表分区呢? 1)表非常的大。读整表会耗时很久 2)对表的查询几乎总是要涉及到用来分区的行作为刷选条件。如果对该表的查询几乎都不会采用分区行来作为条件,对表分区就没多大意义了,有时甚至还会适得其反。原创 2016-10-06 16:10:43 · 9536 阅读 · 0 评论