HuFeiHu's Blog

知无涯者,虚心若愚,求知若饥,勇者天佑 !

flume的source, channel, sink 列表

Flume Source Source类型 说明 Avro Source 支持Avro协议(实际上是Avro RPC),内置支持 Thrift Source 支持Thrift协议,内置支持 Exec Source ...

2017-09-26 11:51:35

阅读数 213

评论数 0

Flume架构以及应用介绍

在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:  从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的...

2017-09-23 11:54:50

阅读数 199

评论数 0

大数据分析平台搭建教程:基于Apache Zeppelin Notebook和R的交互式数据科学

介绍 这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spa...

2017-09-23 11:46:47

阅读数 345

评论数 0

使用Spark和Zeppelin探索movie-lens数据

MovieLens 100k数据包含有100,000条用户与电影的相关数据。  首先下载并解压数据: wget http://files.grouplens.org/datasets/movielens/ml-100k.zip unzip ml-100k.zip cd ml-100k #用户文...

2017-09-23 11:44:38

阅读数 196

评论数 0

MapReduce --全排序

MapReduce全排序的方法1:   每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个reduce任务来完成。   并行程度不高,无法发挥分布式计算的特点。   ...

2017-09-23 11:42:45

阅读数 364

评论数 0

Spark Streaming

Spark Streaming  Spark Streaming 是Spark为了用户实现流式计算的模型。 数据源包括Kafka,Flume,HDFS等。 DStream 离散化流(discretized stream), Spark Streaming 使用DStrea...

2017-09-23 11:41:45

阅读数 159

评论数 0

Kafka 集群部署

kafka是一个分布式消息队列,需要依赖ZooKeeper,请先安装好zk集群   kafka安装包解压 $ tar xf kafka_2.10-0.9.0.1.tgz $ mv kafka_2.10-0.9.0.1 /usr/kafka $ cd /usr/kafka ...

2017-09-23 11:40:07

阅读数 207

评论数 0

HUE配置HIVE

HUE配置HIVE HIVE配置 修改hue.ini配置文件 [beeswax] hive_server_host=node1 hive_server_port=10000 hive_conf_dir=/usr/hive-1.2.1/conf 重启HUE build/env/...

2017-09-23 11:38:50

阅读数 678

评论数 0

HUE配置HBase

HBase的配置 修改配置hue.ini的配置文件 [hbase] hbase_clusters=(Cluster|node1:9090) hbase_conf_dir=/usr/hbase-0.98.12.1-hadoop2/conf Cluster Hue展现的名字 node1...

2017-09-23 11:37:58

阅读数 2036

评论数 0

HUE配置hadoop

HUE配置hadoop HDFS配置 参考文档:http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.5.0/manual.html   Hadoop配置文件修改 hdfs-site.xml   dfs.webhdfs.en...

2017-09-23 11:37:13

阅读数 306

评论数 0

HUE的安装

HUE: Hadoop User Experience 官网地址:http://gethue.com/   Hue官网无法下载,超时。 使用CDH版本安装。 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ 说明文...

2017-09-23 11:36:18

阅读数 423

评论数 0

Sqoop

Sqoop 官方参考文档: http://sqoop.apache.org/docs/1.4.6/index.html   Sqoop介绍 Sqoop is a tool designed to transfer data between Hadoop and relational ...

2017-09-23 11:33:11

阅读数 103

评论数 0

MapReduce -- 统计天气信息

示例   数据: 1949-10-01 14:21:02 34c 1949-10-02 14:01:02 36c 1950-01-01 11:21:02 32c 1950-10-01 12:21:02 37c 1951-12-01 12:21:02 ...

2017-09-23 11:31:36

阅读数 187

评论数 0

安装Hue后的一些功能的问题解决干货总结

不多说,直接上干货!   我的集群机器情况是 bigdatamaster(192.168.80.10)、bigdataslave1(192.168.80.11)和bigdataslave2(192.168.80.12)   然后,安装目录是在/home/hadoop/app下。     官...

2017-09-20 23:01:29

阅读数 6677

评论数 0

Ambari安装之部署3个节点的HA分布式集群

前期博客 Ambari安装之部署单节点集群        其实,按照这个步骤是一样的。只是按照好3个节点后,再做下HA即可。     部署3个节点的HA分布式集群 (1)添加机器 和添加服务的操作类似,如下图 之后的添加ambari03、ambari04操作...

2017-09-15 19:39:25

阅读数 1401

评论数 1

Ambari安装之部署单节点集群

前期博客 大数据领域两大最主流集群管理工具Ambari和Cloudera Manger Ambari架构原理 Ambari安装之Ambari安装前准备(CentOS6.5)(一) Ambari安装之部署本地库(镜像服务器)(二)         部署hdp单节点集群 (1)...

2017-09-15 19:38:30

阅读数 853

评论数 0

Ambari安装之安装并配置Ambari-server(三)

前期博客  Ambari安装之部署本地库(镜像服务器)(二)         安装并配置Ambari-server (1)检查仓库是否可用 [hadoop@ambari01 yum.repos.d]$ pwd /etc/yum.repos.d [hadoop@ambar...

2017-09-15 19:37:34

阅读数 368

评论数 0

Ambari安装之部署本地库(镜像服务器)(二)

部署本地库(镜像服务器)   (1)下载HortWorks官网上的3个库到本地(也可以在线下载,但是速度会很慢)   我们先把hortworks官网上需要下载的3个库下载到本地(这个还是需要很长时间的,当然你也可以在线下载,通过wget但是由于文件比较大,所以下载会非常慢)然后把他上传到我...

2017-09-15 19:36:32

阅读数 662

评论数 0

Ambari安装之Ambari安装前准备(CentOS6.5)(一)

优秀博客 《Ambari——大数据平台的搭建利器》             Ambari安装前准备 (一)机器准备   192.168.80.144   ambari01   (部署Ambari-server和Mirror server)...

2017-09-15 19:35:33

阅读数 167

评论数 0

CentOS6.5下Ambari安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐)

第一步: Ambari安装之Ambari安装前准备(CentOS6.5)(一)     第二步: Ambari安装之部署本地库(镜像服务器)(二)       第三步: Ambari安装之安装并配置Ambari-server(三)          第四步: Ambari...

2017-09-15 19:34:03

阅读数 399

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭