hadoop
will_guofeng
这个作者很懒,什么都没留下…
展开
-
hadoop运行WordCount程序
1.建立测试程序 WordCount.java[java] view plaincopyimport java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.StringTokenizer转载 2014-07-16 23:07:31 · 619 阅读 · 0 评论 -
Hbase Filter
Comparison Filters 比较过滤器这一类Filter派生于CompareFilter ,其构造函数如下:[java] view plaincopyCompareFilter(CompareOp,WritableByteArrayComparable valueComparator) RowFilter转载 2015-04-14 16:42:54 · 629 阅读 · 0 评论 -
hive一行数据中一列拆分成多行
lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产生一个支持别名表的虚拟表。单个LATERAL VIEW:源表(table1)数据{A:string B:arr转载 2015-03-27 15:28:37 · 6883 阅读 · 0 评论 -
hadoop启动namenode失败异常,求解决方法,小弟不胜感激!!!
问题描述:前面集群都是正常,今天向hadoop-env.sh中添加hbase环境变量后,启动namenode就出现该错误!原创 2015-03-11 17:28:31 · 3629 阅读 · 0 评论 -
HBase shell基础和常用命令详解
HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库转载 2015-03-20 15:18:35 · 644 阅读 · 0 评论 -
运用mapreduce计算tf-idf
运用mapreduce计算文档中每个单词的tfidf值原创 2015-03-19 13:51:59 · 3102 阅读 · 0 评论 -
HBase api优化设计
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载转载 2015-03-19 15:43:11 · 528 阅读 · 0 评论 -
Ubuntu14.04下安装Hadoop2.4.0 --- 单机模式
一、在Ubuntu下创建hadoop组和hadoop用户 Ubuntu版本:ubuntu-14.04-desktop-amd64+mac(32位的配置方法类似)Hadoop版本:hadoop-2.4.0增加hadoop用户组,同时在该组里增加用户hadoopusr1,后续在涉及到hadoop操作时,我们使用该用户。 1、创建hadoop用转载 2014-09-25 14:10:02 · 919 阅读 · 0 评论 -
Hadoop学习资料、博客及网站汇总
转载hadoop笔记:http://ekaf.blog.163.com/blog/static/17710797020116269126649/点击打开链接Hadoop官方的中文文档http://hadoop.apache.org/common/docs/r0.18.2/cn/index.html Hadoop学习资料 -- 这里面总结了很多的东西,值得一一转载 2014-10-16 16:26:03 · 594 阅读 · 0 评论 -
hadoop 2.4.0 无法启动datanode
一、执行start-dfs.sh后,datenode没有启动 查看日志如下: 2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (Datanode Uuid unassign转载 2014-10-13 16:07:31 · 631 阅读 · 0 评论 -
hadoop-2.4.0完全分布式集群搭建
新版本日志系统预计存储在TB级别,并且需要统计分析一些数据(离线统计,非即时),所以选择廉价linux服务器搭建一个hadoop集群,1个namenode,1个resourcemanager(mapreduce新框架yarn,去掉了原来的 jobtracker和tasktracker,取而代之的是ResourceManager, ApplicationMaster 与 NodeManager)转载 2014-10-13 16:14:06 · 618 阅读 · 0 评论 -
Eclipse--Hadoop2.4.0开发环境
一、安装Eclipse 官网Eclipse下载: https://www.eclipse.org/downloads/ 将下载的压缩包解压即完成安装,例如解压到/usr/local,即/usr/local/eclipse二、在eclipse上安装hadoop插件 1、下载hadoop插件:http://download.csdn.net/detail转载 2014-09-25 15:04:33 · 628 阅读 · 0 评论 -
Ubuntu14.04下安装Hadoop2.4.0 --- 伪分布模式
一、配置core-site.xml /usr/local/hadoop/etc/hadoop/core-site.xml 包含了hadoop启动时的配置信息。 在编辑器中打开此文件 sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml 在该文件的//之间添加如下内容:转载 2014-09-25 14:59:32 · 707 阅读 · 0 评论 -
hadoop2.4配置与wordcount例子
Hadoop-2.4.0安装和wordcount运行验证以下描述了64位centos6.5机器下,安装32位hadoop-2.4.0,并通过运行系统自带的WordCount例子来验证服务正确性的步骤。建立目录/home/QiumingLu/hadoop-2.4.0,以后这个是hadoop的安装目录。安装hadoop-2.4.0,解压hadoop-2.4.转载 2014-07-13 11:23:08 · 885 阅读 · 0 评论 -
Hadoop-2.4.0安装和wordcount运行验证
Hadoop-2.4.0安装和wordcount运行验证以下描述了64位centos6.5机器下,安装32位hadoop-2.4.0,并通过运行系统自带的WordCount例子来验证服务正确性的步骤。建立目录/home/QiumingLu/hadoop-2.4.0,以后这个是hadoop的安装目录。安装hadoop-2.4.0,解压hadoop-2.4.转载 2014-07-16 22:46:04 · 625 阅读 · 0 评论 -
hadoop 常用配置
core-site.xml namevalue Description fs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口 fs.checkpoint.dir/opt/data/hadoop1/hdfs/转载 2015-09-06 11:16:33 · 458 阅读 · 0 评论