2016年12月_xiaoL_clo

转载大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm和什么技术搭配，才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章：1.一个好的项目架构应该具备什么特点？2.本项目架构是如何保证数据准确性的？3

2016-12-21 17:20:55 913

转载 Oozie分布式任务的工作流——Sqoop篇

Sqoop的使用应该是Oozie里面最常用的了，因为很多BI数据分析都是基于业务数据库来做的，因此需要把mysql或者oracle的数据导入到hdfs中再利用mapreduce或者spark进行ETL，生成报表信息。因此本篇的Sqoop Action其实就是运行一个sqoop的任务而已。同样action会等到sqoop执行成功后，才会执行下一个action。为了运行sqoop

2016-12-21 14:38:54 2735

转载 Hadoop可视化分析利器之Hue

先来看下hue的架构图：

2016-12-20 09:52:54 2204

转载 kettle6.0linux安装配置

kettlekettle部署分为kettle server部署和客户端的kettle client部署，二者安装包完全一致，除因为不同操作系统执行相对应的脚本文件外(Linux执行shell文件，windows执行bat文件)，其它配置基本一致。kettle版本：6.0,下载地址：http://sourceforge.net/projects/pentaho/files/Data%

2016-12-19 10:53:53 1341

转载 sqoop1.4.2数据导出

一、sqoop-export 相关参数： Java代码 usage: sqoop export [GENERIC-ARGS] [TOOL-ARGS] Common arguments: --connect Specify JDBC connect

2016-12-13 15:31:08 405

转载 sqoop1.4.2数据导入

一、Sqoop Help Java代码 $ sqoop help usage: sqoop COMMAND [ARGS] Available commands: codegen Generate code to interact with database records create-hive-table

2016-12-13 15:29:07 663

转载 Hive内置数据类型

Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型。其中，基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。下面的表格列出这些基础类型所占的字节以及从什么版本开始支持这些类型。数据类型

2016-12-12 15:17:04 562

转载 Linux top命令的用法详细详解

以下是对Linux中top命令的用法进行了详细的介绍，需要的朋友可以过来参考下查看多核CPU命令mpstat -P ALL 和 sar -P ALL 说明：sar -P ALL > aaa.txt 重定向输出内容到文件 aaa.txttop命令经常用来监控linux的系统状况，比如cpu、内存的使用，程序员基本都知道这个命令，但比较奇怪

2016-12-07 16:19:57 122397 10

一只刚刚上路的猿