2014年05月_余建新-18588497759

原创 Oozie-1-安装、配置让Hadoop流动起来

写在前面一：本文总结基于Hadoop的工作流调度系统——Oozie写在前面二：使用软件说明：约定所有软件的存放目录：/home/yujianxin一、什么是Oozie1、Oozie是一个开源的基于Hadoop的工作流调度系统，用于运行Hadoop Map/Reduce和Pig 任务工作流，同时Oozie还是一个Java Web程序，运行在Jav

2014-05-31 23:55:46 4564 2

原创 Phoenix——实现向HBase发送标准SQL语句

写在前面一：本文总结基于HBase的SQL查询系统——Salesforce phoenix写在前面二：环境说明：一、什么是Phoenix摘自官网：Phoenix是一个提供hbase的sql操作的框架，Phoenix是构建在HBase之上的一个SQL中间层。Phoenix完全使用Java编写，代码位于GitHub上，并且提供了一个客户端可嵌入的JD

2014-05-31 23:09:54 5536

原创 Maven_Nexus搭建、配置

详细内容，欢迎qq（1152596901）交流

2014-05-31 17:44:59 1151

原创基于Hadoop、HBase的数据分析挖掘管理平台-舆情预警监控系统 (系统总体设计图)

2014-05-24 16:51:34 3658 1

原创 Hadoop生态系统总结全面、详细、简洁、明了

Hadoop生态系统

2014-05-24 11:42:40 2767

原创使用Pig对手机上网日志进行分析

在成功安装Pig的基础上，本文将使用Pig对手机上网日志进行分析，具体步骤如下：写在前面：手机上网日志文件phone_log.txt，文件内容及字段说明部分截图如下需求分析显示每个手机号的上网流量情况。依次完成以下步骤：1、将Linux本地文件phone_log.txt上传到HDFS执行命令dump C; 查看经过以上步骤处理后的

2014-05-24 10:17:59 2678 2

原创详细图解 Pig介绍、安装配置

写在前面一：本文总结“Hadoop生态系统”中的其中一员——Apache Hive写在前面二：环境说明：一、什么是Apache Hive摘自官网： Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机

2014-05-24 08:42:32 2547

原创使用Flume进行数据的实时收集处理

在已经成功安装Flume的基础上，本文将总结使用Flume进行数据的实时收集处理，具体步骤如下：第一步，在$FLUME_HOME/conf目录下，编写Flume的配置文件，命名为flume_first_conf，具体内容如下：#agent1表示代理名称agent1.sources=source1agent1.sinks=sink1agent1.channels=channel1

2014-05-24 07:20:06 6595 3

原创详细图解 Flume介绍、安装配置

写在前面一：本文总结“Hadoop生态系统”中的其中一员——Apache Flume写在前面二：所用软件说明：一、什么是Apache Flume官网：Flume is a distributed, reliable, and availableservice for efficiently collecting, aggregating, and m

2014-05-24 00:53:40 8947

原创 Hive中的4种表

1、内部表 CREATE TABLE t1(id int); LOAD DATA LOCAL INPATH '/home/yujianxin/hive/test1/id' INTO TABLE t1; 加LOCAL 直接从本地Linux读取数据；不加LOCAL，是从HDFS中读取数据。 CREATE TABLE t2(id int,

2014-05-23 21:51:01 1719

原创 Hive命令的3种调用方式

方式1：hive –f /root/shell/hive-script.sql（适合多语句）hive-script.sql类似于script一样，直接写查询命令就行例如：[root@cloud4 shell]# vi hive_script3.sqlselect * from t1;select count(*) from t1;不进入交互模式，执行一个hive

2014-05-23 21:48:29 1261

原创详细图解 Hive介绍、安装配置

写在前面一：本文总结“Hadoop生态系统”中的其中一员——Apache Hive，话不多说，直入正文写在前面二：环境说明：一、什么是Apache Sqoop官网最有力：Apache Sqoop(TM) is a tool designed for efficiently transferringbulk data between ApacheHadoo

2014-05-23 21:44:33 1728 5

原创项目中用到的Shell脚本（部分）

Linux Shell脚本之重要性看看如下截图

2014-05-23 17:41:12 2088

原创 Sqoop_详细总结使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出

一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase 二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL2.3 HBase中的数据导出到mysql目前没有直接的命令将HBase中的数据导出到MySQL，但可以先将HBase中的数据导出到HDFS中，再将数据导出到MySQL。三、使用Sqoop将Orac

2014-05-23 16:20:38 11298

原创 Sqoop_详细图解 Sqoop介绍、安装配置

一、什么是Apache Sqoop二、Sqoop安装配置三、Sqoop使用四、Sqoop错误总结

2014-05-23 08:26:31 4863

原创高效搭建Storm完全分布式集群

环境说明1、硬件说明使用三台PC机，角色分配如下2、软件说明约定所有软件都放在/usr/local/路径下准备工作1、安装jdk2、配置SSHStorm集群安装安装流程图1、安装Zookeeper集群2、安装Storm依赖zeromq、jzmq、pytho

2014-05-11 21:07:21 3473

原创不甚愉快的操作——卸载VMware8，安装VMware10

卸载VMware8再anz

2014-05-05 10:54:02 3083

原创在Eclipse中编辑Hadoop2.2.0源代码

构建一个高效的Hadoop学习环境对于Hadoop的学习至关重要，本文将Hadoop2.2.0源码导入Eclipse的过程作一总结。实现思路：使用Maven生成Eclipse支持的Maven Project（Maven管理项目很是流行哟），再使用Eclipse的Maven插件，将生成的Maven Project导入到Eclipse中。一、环境说明1.1、工具说明

2014-05-05 10:06:35 1615

原创高效5步走，快速搭建Hadoop2伪分布环境

前两天将Hadoop2的完全分布式搭建文档整理发布于网上（http://blog.csdn.net/aaronhadoop/article/details/24859369），朋友相邀，就再将Hadoop2的伪分布式文档整理一下，搭建过Hadoop2完全分布式后，就笑对“伪分布式”说声呵呵吧。前期的jdk环境、SSH免密钥登录配置在此就不再赘述了，直接进入hadoop2的配

2014-05-03 17:14:22 1450

原创 Hadoop-1.1.2、HBase-0.94.7完全分布式集群搭建

能够将热爱的技术应用于实际生活生产中，是做技术人员向往和乐之不疲的事。现将前期手里面的一个项目做一个大致的总结，与大家一起分享、交流、进步。项目现在正在线上运行，项目名——基于Hadoop的数据分析综合管理平台。项目流程整体比较清晰，爬取数据（txt文本）-->数据清洗-->文本模型训练-->文本分类-

2014-05-02 11:18:19 6134

原创 Hadoop2.2.0--Hadoop Federation、Automatic HA、Yarn完全分布式集群搭建

Hadoop1玩了有不少时间了，随着系统上线，手头事情略微少些。So，抓紧时间走通了一遍Hadoop2下的Hadoop联盟(Federation)、Hadoop2高可用(HA)及Yarn的完全分布式配置，现记录在博客中，互相交流学习，话不多说，直入正文。非常感谢摸索过程中受益颇深的网络资源，分享让技术更美好。哈哈本文采用倒叙手法，先将最终结果呈现出来，如下：结果展现一，通过jps查

2014-05-02 07:08:37 3275 2