- 博客(21)
- 收藏
- 关注
原创 Oozie-1-安装、配置 让Hadoop流动起来
写在前面一:本文总结 基于Hadoop的工作流调度系统——Oozie写在前面二:使用软件说明:约定所有软件的存放目录:/home/yujianxin一、什么是Oozie1、Oozie是一个开源的基于Hadoop的工作流调度系统,用于运行Hadoop Map/Reduce和Pig 任务工作流,同时Oozie还是一个Java Web程序,运行在Jav
2014-05-31 23:55:46 4564 2
原创 Phoenix——实现向HBase发送标准SQL语句
写在前面一:本文总结基于HBase的SQL查询系统——Salesforce phoenix写在前面二:环境说明:一、什么是Phoenix摘自官网:Phoenix是一个提供hbase的sql操作的框架,Phoenix是构建在HBase之上的一个SQL中间层。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JD
2014-05-31 23:09:54 5536
原创 使用Pig对手机上网日志进行分析
在成功安装Pig的基础上,本文将使用Pig对手机上网日志进行分析,具体步骤如下:写在前面:手机上网日志文件phone_log.txt,文件内容 及 字段说明部分截图如下需求分析显示每个手机号的上网流量情况。依次完成以下步骤:1、将Linux本地文件phone_log.txt上传到HDFS执行命令dump C; 查看经过以上步骤处理后的
2014-05-24 10:17:59 2678 2
原创 详细图解 Pig介绍、安装配置
写在前面一:本文总结“Hadoop生态系统”中的其中一员——Apache Hive写在前面二:环境说明:一、什么是Apache Hive摘自官网: Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机
2014-05-24 08:42:32 2547
原创 使用Flume进行数据的实时收集处理
在已经成功安装Flume的基础上,本文将总结使用Flume进行数据的实时收集处理,具体步骤如下:第一步,在$FLUME_HOME/conf目录下,编写Flume的配置文件,命名为flume_first_conf,具体内容如下:#agent1表示代理名称agent1.sources=source1agent1.sinks=sink1agent1.channels=channel1
2014-05-24 07:20:06 6595 3
原创 详细图解 Flume介绍、安装配置
写在前面一:本文总结“Hadoop生态系统”中的其中一员——Apache Flume写在前面二:所用软件说明:一、什么是Apache Flume官网:Flume is a distributed, reliable, and availableservice for efficiently collecting, aggregating, and m
2014-05-24 00:53:40 8947
原创 Hive中的4种表
1、内部表 CREATE TABLE t1(id int); LOAD DATA LOCAL INPATH '/home/yujianxin/hive/test1/id' INTO TABLE t1; 加LOCAL 直接从本地Linux读取数据; 不加LOCAL,是从HDFS中读取数据。 CREATE TABLE t2(id int,
2014-05-23 21:51:01 1719
原创 Hive命令的3种调用方式
方式1:hive –f /root/shell/hive-script.sql(适合多语句)hive-script.sql类似于script一样,直接写查询命令就行例如:[root@cloud4 shell]# vi hive_script3.sqlselect * from t1;select count(*) from t1;不进入交互模式,执行一个hive
2014-05-23 21:48:29 1261
原创 详细图解 Hive介绍、安装配置
写在前面一:本文总结“Hadoop生态系统”中的其中一员——Apache Hive,话不多说,直入正文写在前面二:环境说明:一、什么是Apache Sqoop官网最有力:Apache Sqoop(TM) is a tool designed for efficiently transferringbulk data between ApacheHadoo
2014-05-23 21:44:33 1728 5
原创 Sqoop_详细总结 使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出
一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase 二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL2.3 HBase中的数据导出到mysql目前没有直接的命令将HBase中的数据导出到MySQL,但可以先将HBase中的数据导出到HDFS中,再将数据导出到MySQL。三、使用Sqoop将Orac
2014-05-23 16:20:38 11298
原创 Sqoop_详细图解 Sqoop介绍、安装配置
一、什么是Apache Sqoop二、Sqoop安装配置三、Sqoop使用四、Sqoop错误总结
2014-05-23 08:26:31 4863
原创 高效搭建Storm完全分布式集群
环境说明1、硬件说明使用三台PC机,角色分配如下2、软件说明约定所有软件都放在/usr/local/路径下准备工作1、安装jdk2、配置SSHStorm集群安装安装流程图1、安装Zookeeper集群2、安装Storm依赖zeromq、jzmq、pytho
2014-05-11 21:07:21 3473
原创 在Eclipse中编辑Hadoop2.2.0源代码
构建一个高效的Hadoop学习环境对于Hadoop的学习至关重要,本文将Hadoop2.2.0源码导入Eclipse的过程作一总结。实现思路:使用Maven生成Eclipse支持的Maven Project(Maven管理项目很是流行哟),再使用Eclipse的Maven插件,将生成的Maven Project导入到Eclipse中。一、环境说明1.1、工具说明
2014-05-05 10:06:35 1615
原创 高效5步走,快速搭建Hadoop2伪分布环境
前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对“伪分布式”说声 呵呵吧。 前期的jdk环境、SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配
2014-05-03 17:14:22 1450
原创 Hadoop-1.1.2、HBase-0.94.7完全分布式集群搭建
能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。 现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。 项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-
2014-05-02 11:18:19 6134
原创 Hadoop2.2.0--Hadoop Federation、Automatic HA、Yarn完全分布式集群搭建
Hadoop1玩了有不少时间了,随着系统上线,手头事情略微少些。So,抓紧时间走通了一遍Hadoop2下的Hadoop联盟(Federation)、Hadoop2高可用(HA)及Yarn的完全分布式配置,现记录在博客中,互相交流学习,话不多说,直入正文。非常感谢摸索过程中受益颇深的网络资源,分享让技术更美好。哈哈本文采用倒叙手法,先将最终结果呈现出来,如下:结果展现一,通过jps查
2014-05-02 07:08:37 3275 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人