Hadoop2.0
文章平均质量分 80
Gandalf_lee
互联网大厂从事数据挖掘,机器学习相关技术工作。
展开
-
【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制
前言HDFS为管理员提供了针对目录的配额控制特性,可以控制名称配额(指定目录下的文件&文件夹总数),或者空间配额(占用磁盘空间的上限)。本文探究了HDFS的配额控制特性,记录了各类配额控制场景的实验详细过程。实验环境基于Apache Hadoop 2.5.0-cdh5.2.0。欢迎转载,请注明出处:名称配额功能试用设置名称原创 2015-03-19 09:50:54 · 1927 阅读 · 0 评论 -
【甘道夫】Sqoop1.4.4原生增量导入特性探秘
原始思路要想实现增量导入,完全可以不使用Sqoop的原生增量特性,仅使用shell脚本生成一个以当前时间为基准的固定时间范围,然后拼接Sqoop命令语句即可。原生增量导入特性简介Sqoop提供了原生增量导入的特性,包含以下三个关键参数:ArgumentDescription--check-column (col原创 2014-08-27 18:33:44 · 2890 阅读 · 1 评论 -
【甘道夫】Mahout推荐算法编程实践
引言Taste是曾经风靡一时的推荐算法框架,后来被并入Mahout中,Mahout的部分推荐算法基于Taste实现。下文介绍基于Taste实现最常用的UserCF和ItemCF。本文不涉及UserCF和ItemCF算法的介绍,这方面网上资料很多,本文仅介绍如何基于Mahout编程实现。欢迎转载,请注明来源:步骤一:构建数据模型原创 2014-09-10 17:27:09 · 3414 阅读 · 1 评论 -
【甘道夫】HBase开发环境搭建过程中可能遇到的异常:No FileSystem for scheme: hdfs
HBase开发环境搭建过程中可能遇到的异常:No FileSystem for scheme: hdfs原创 2014-07-03 11:02:07 · 7438 阅读 · 0 评论 -
【甘道夫】实现Hive数据同步更新的shell脚本
引言:上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop,Hive命令,本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用于实际工程原创 2014-08-25 18:20:33 · 2626 阅读 · 0 评论 -
【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表
需求将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。设计涉及的三张表:全量表:保存了截止上一次同步时间的全量基础数据表增量表:增量临时表更新后的全量表:更新后的全量数据表步骤:通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表通过Hive将“全量原创 2014-08-21 19:14:08 · 4085 阅读 · 1 评论 -
【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0
引言Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本,但很多情况下,由于集群环境的Hadoop已经是2.2.0以上版本,又必须使用Mahout,此时就需要编译源码,使得Mahout支持Hadoop2了。欢迎转载,请注明出处:造好的车轮让Mahout在Hadoop2.2.0上运行是需求十分广泛的,所以必定有前人已经栽好树了,我们可以在原创 2014-09-05 23:26:12 · 2828 阅读 · 6 评论 -
【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详解
环境:hadoop2.2.0hive0.13.1Ubuntu 14.04 LTSjava version "1.7.0_60"Oracle10g到以下地址下载安装包http://mirrors.cnnic.cn/apache/hive/stable/apache-hive-0.13.1-bin.tar.gz原创 2014-08-20 18:07:09 · 3367 阅读 · 1 评论 -
【甘道夫】用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0
引言接前一篇文章《【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0》http://blog.csdn.net/u010967382/article/details/39088035,为Mahout0.9打过Patch编译成功后,使用贝叶斯文本分类来测试Mahout0.9对Hadoop2.2.0的兼容性。步原创 2014-09-05 23:31:01 · 1649 阅读 · 0 评论 -
【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自动生成组合行键
【甘道夫】Hadoop2.2.0环境使用sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自动生成组合行键原创 2014-07-02 11:33:53 · 3979 阅读 · 1 评论 -
【甘道夫】Win7+Eclipse+Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行
引言之前成功在服务器上为Mahout0.9打patch,使其支持Hadoop2.2.0。今天的需求是:在Win7+Eclipse+Maven环境下开发Mahout程序,打jar包放到集群上,使其在Hadoop2.2.0下正常运行。过程步骤一:Eclipse下创建Maven工程pom.xml:1.引入mahout依赖 depe原创 2014-09-11 17:54:20 · 2781 阅读 · 2 评论 -
【甘道夫】如何在cdh5.2上运行mahout的itemcf on hadoop
环境:hadoop-2.5.0-cdh5.2.0mahout-0.9-cdh5.2.0步骤:基本思路是,将mahout下的所有jar包都引入hadoop的classpath即可,所以修改了$HADOOP_HOME/etc/hadoop/hadoop-env.sh,添加如下代码将mahout的所有jar包引入hadoop的classpath:f原创 2014-10-23 18:42:37 · 3207 阅读 · 0 评论 -
【甘道夫】使用HIVE SQL实现推荐系统数据补全
需求在推荐系统场景中,如果基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果很可能达不到要求的数量。比如,希望针对每个item或user推荐20个item,但是通过计算只得到8个,剩下的12个就需要补全。欢迎转载,请注明出处:策略数据补全的具体策略是:补全时机:在挖掘计算结束后,挖掘结果导入HBase(最终web系原创 2014-09-29 19:05:20 · 3554 阅读 · 2 评论 -
HDFS快照特性基础
转一篇团队成员 塔瑞尔 的博客,对HDFS快照特性的调研总结。博客原文:http://blog.csdn.net/linlinv3/article/details/44622203==========================================================================================通过snapsh转载 2015-03-25 17:17:35 · 885 阅读 · 0 评论 -
【甘道夫】HBase随机宕机事件处理 & JVM GC回顾
一、引言本文记录了困扰团队两周的HBase随机宕机事件的解决方案,并回顾了JVM GC调优基础知识,供各位参考。欢迎转载,请注明出处:二、实验环境16台虚拟机,每台4G内存,1核CPU,400G硬盘Ubu原创 2015-01-04 16:31:46 · 4838 阅读 · 1 评论 -
【甘道夫】Oozie-4.0.0-CDH5.2.0 安装部署
引言Oozie是Hadoop生态系统中的工作流控制组件,可以调度MR,Hive,Shell等各类任务,并配置复杂的工作流程。今天介绍如何安装部署,使用的是单机测试环境。欢迎转载,请注明来源:下载解压下载安装过程需要的相关文件:oozie4.0.0安装包http://archive.cloudera.com/cdh5原创 2014-11-21 18:59:33 · 4097 阅读 · 0 评论 -
【甘道夫】通过bulk load将HDFS上的数据导入HBase
引言通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能,下面简单记录下关键步骤。bulkload的详细情况请参见官网文档。过程第一步:每台机器执行ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml原创 2014-11-04 17:36:11 · 2365 阅读 · 0 评论 -
【甘道夫】官网MapReduce实例代码详细批注
引言1.本文不描述MapReduce入门知识,这类知识网上很多,请自行查阅2.本文的实例代码来自官网http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html最后的WordCount v2.0,该原创 2014-10-16 18:21:33 · 2210 阅读 · 0 评论 -
【甘道夫】CDH5.2的Maven依赖
之前一直结合Maven开发Hadoop2.2.0的程序,环境换成CDH5.2后报错,发现是Maven依赖库的问题。之前一直使用http://mvnrepository.com/查找maven依赖,但这类网站只能查到通用的maven依赖,没有包含CDH依赖,还好Cloudera提供了CDH的依赖:http://www.cloudera.com/content/原创 2014-11-15 15:00:34 · 2678 阅读 · 0 评论 -
【甘道夫】开发Hive自定义UDF,生成32位字母数字随机串
引言曾经认为Hive自带的函数应该可以cover住我的日常所需,心想那些需要使用自定义函数的场景是不是太奇葩,谁知命运弄人,自己还是碰上了。需求很简单,我需要模拟Oracle中的SYS_GUID()函数,生成一个32位的字母数字随机串。开发环境:Eclipse+Maven,引入Hive0.13.1的依赖。欢迎转载,请注明来源:原创 2014-11-13 17:54:25 · 3522 阅读 · 1 评论 -
【甘道夫】Ubuntu集群配置免认证登陆
引言这是几年前写的文章,但一直以来该问题被重复问到,所以我决定将它重新搬上屏幕。正文三个节点:masternode slavenode1 slavenode2第一步:所有节点分别生成密钥对所有节点都要做:命令行中,在当前用户根目录执行ssh-keygen -t rsa密钥成功生成后是存储在当前用户根目录下的.ss原创 2014-10-24 23:38:10 · 1598 阅读 · 0 评论 -
【甘道夫】基于Mahout0.9+CDH5.2运行分布式ItemCF推荐算法
环境:hadoop-2.5.0-cdh5.2.0mahout-0.9-cdh5.2.0引言虽然Mahout已经宣布不再继续基于Mapreduce开发,迁移到Spark,但是实际面临的情况是公司集群没有足够的内存支持Spark这只把内存当饭吃的猛兽,再加上项目进度的压力以及开发人员的技能现状,所以不得不继续使用Mahout一段时间。今天记录原创 2014-10-24 15:32:30 · 2777 阅读 · 1 评论 -
【甘道夫】Hadoop2.2.0 NN HA详细配置+Client透明性试验【完整版】
【甘道夫】Hadoop2.2.0 NN HA详细配置+Client透明性试验【完整版】原创 2014-06-15 11:52:24 · 4309 阅读 · 3 评论 -
【甘道夫】Eclipse+Maven搭建HBase开发环境及HBaseDAO代码示例
Eclipse+Maven搭建HBase开发环境及HBaseDAO代码示例原创 2014-07-02 19:09:32 · 5997 阅读 · 0 评论 -
【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用
并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用原创 2014-06-17 18:52:03 · 2021 阅读 · 0 评论 -
【甘道夫】Mapreduce实现矩阵乘法的算法思路
大数据计算中经常会遇到矩阵乘法计算问题,所以Mapreduce实现矩阵乘法是重要的基础知识,下文我尽量用通俗的语言描述该算法。 1.首先回顾矩阵乘法基础 矩阵A和B可以相乘的前提是,A的列数和B的行数相同,因为乘法结果的矩阵C中每一个元素Cij,是A的第i行和B的第j列做点积运算的结果,参见下图:原创 2014-05-09 09:38:13 · 2629 阅读 · 3 评论 -
【甘道夫】Win7环境下Eclipse连接Hadoop2.2.0
准备:确保hadoop2.2.0集群正常运行1.eclipse中建立java工程,导入hadoop2.2.0相关jar包2.在src根目录下拷入log4j.properties,通过log4j查看详细日志log4j.rootLogger=debug, stdout, Rlog4j.appender.stdout=org.apache.原创 2014-05-09 09:50:53 · 3529 阅读 · 0 评论 -
【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解
背景&目标:1、sport.tar 是体育类的文章,一共有10个类别; 用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果; 记录分类器的构造过程和测试结果。2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用户; 利用上题构造的文本分类器,计算每个用户浏览各类文章的占比; 记录计算过程和结果。原创 2014-05-09 10:12:48 · 4599 阅读 · 14 评论 -
Hadoop2.2.0启动异常 - Incompatible clusterIDs
今天启动Hadoop2.2.0集群后,发现datanode进程没启动,查看日志发现如下报错:2014-05-15 14:46:50,788 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool BP-2020521428-192.1原创 2014-05-15 15:34:10 · 1420 阅读 · 2 评论 -
【甘道夫】拷贝文件到多台服务器的Shell脚本
在多机集群环境中,经常面临修改配置文件后拷贝到多台服务器的情况,传统的执行scp比较麻烦,所以写了以下shell脚本,可以将指定文件拷贝到多台机器。使用方法请参见HELP部分代码。原创 2014-05-09 09:27:19 · 1149 阅读 · 0 评论 -
【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse插件
目标:编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件环境:win7x64家庭普通版eclipse-jee-kepler-SR1-win32-x86_64.zipApache Ant(TM) version 1.8.4 compiled on May 22 2012java version "1.7.0_45原创 2014-05-09 09:47:11 · 1675 阅读 · 0 评论 -
【甘道夫】Hadoop2.2.0集群启动和停止Shell脚本
说明:以下脚本中出现的master,slave1,slave2,slave3均已配host。#!/bin/bashhadoophome="/home/yarn/Hadoop/hadoop-2.2.0/"ssh slave1 "/bin/bash ${hadoophome}sbin/hadoop-daemon.sh start journalnode"ssh slave2原创 2014-05-09 09:33:36 · 745 阅读 · 0 评论 -
【甘道夫】通过Mahout构建推荐系统--通过IDRescorer扩展评分规则
通过Mahout构建推荐系统时,如果我们需要加入某些过滤规则(比如:item的创建时间在一年以内),则需要用到IDRescorer接口,该接口源码如下:package org.apache.mahout.cf.taste.recommender;/** * * A {@link Rescorer} which operates on {@code long原创 2014-05-09 09:53:58 · 1344 阅读 · 0 评论 -
【甘道夫】MapReduce实现矩阵乘法--实现代码
MapReduce实现矩阵乘法--实现代码原创 2014-05-15 19:08:14 · 2595 阅读 · 1 评论 -
【伊利丹】Hadoop2.0 NN HA实验记录
1.关于Hadoop2.2.0中HA的介绍NameNode 简称: NN DateNode 简称: DNJournalNode 简称: JNZookeeper 简称: ZK从上面的图里,我们可以知道HA的大致架构:01.利用共享存储来在两个NN之间同步元数据信息。在NN中有两个重要的文件:一个是fsim转载 2014-06-05 13:53:26 · 2099 阅读 · 0 评论 -
【甘道夫】HBase基本数据操作详解【完整版,绝对精品】
【甘道夫】HBase基本数据操作详解【完整版,绝对精品】原创 2014-07-16 15:31:22 · 27674 阅读 · 5 评论 -
【甘道夫】Hadoop2.4.1尝鲜部署+完整版配置文件
Hadoop2.4.1集群部署+NN HA原创 2014-07-11 22:57:28 · 3914 阅读 · 6 评论 -
【甘道夫】NN HA 对于 Client 透明的实验
NN HA对于Client透明的实验原创 2014-06-13 16:03:32 · 1222 阅读 · 0 评论 -
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装hadoop,并实现免密钥互访,配hosts原创 2013-06-10 09:59:12 · 8826 阅读 · 0 评论 -
【甘道夫】Sqoop1.99.3基础操作--导入Oracle的数据到HDFS
Sqoop1.99.3基础操作--导入Oracle的数据到HDFS原创 2014-06-27 14:58:52 · 3005 阅读 · 4 评论