2017年02月_红豆和绿豆

12月 11月 10月 09月 06月 04月 03月 02月 01月

原创 storm保证消息可靠性

public class TopoMain { public static void main(String[] args) { TopologyBuilder builder = new TopologyBuilder(); builder.setSpout("spout", new MessageSpout()); b

2017-02-28 16:25:55 266

原创 Storm的生命周期

生命周期主要是SPOUT和Bolt这二个组件的生命周期Spout组件涉及到的方法有：declareOutputFields()open()active()nextTuple()disactive()Bolt组件涉及到的方法有declareOutputFileds()prepare()execute()什么时候执行？在客户端将jar包提交到集群上的时候

2017-02-28 15:28:36 686

原创 storm工作原理的简单介绍

首先创建一个一个storm的应用public class TopoMain {//创建日志 private static final Log log = LogFactory.getLog(TopoMain.class); /** * @param args */ public static void main(String[]

2017-02-28 14:38:37 512

原创 storm的安装

1.修改主机名：vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=MASTER2.修改IP：vim /etc/sysconfig/network-scripts/ifcfg-eth0BOOTPROTO="static"HWADDR="00:0C:29:FC:62:B6"IPV6INIT="yes"NM_CONT

2017-02-28 12:11:13 292

转载 Storm的重要概念

Storm中一些重要的概念：Spout（消息源） Bolt（消息处理者） Stream grouping（数据的分发方式）Topology（拓扑） Worker（工作进程） Task（执行具体逻辑的任务）Executor（执行Task的线程）Configuration（配置）编程模型：物理模型：worker进程：一

2017-02-28 10:38:19 336

转载 Storm实战之WordCount

在storm环境部署完毕，并正确启动之后，现在就可以真正进入storm开发了，按照惯例，以wordcount作为开始。这个例子很简单，核心组件包括：一个spout，两个bolt，一个Topology。spout从一个路径读取文件，然后readLine，向bolt发射，一个文件处理完毕后，重命名，以不再重复处理。第一个bolt将从spout接收到的字符串按空格split，产生word，发

2017-02-28 10:18:38 659

原创简单的项目使用flume，hive，sqoop，flume

这是一个自动化的脚本，每天定时启动使用crontab进行配置即可CURRENT=`/bin/date +%y%m%d`数据清洗#/usr/local/hadoop-2.4.1/bin/hadoop jar /home/hadoop/cleaner.jar /flume/$CURRENT /cleaned/$CURRENT#/usr/local/apache-hive-0.1

2017-02-28 08:58:47 891

原创 flume的安装与使用

flume的安装一般只需要配置配置文件就可以了这是一个用户自定的文件a4.conf#定义agent名， source、channel、sink的名称a4.sources = r1a4.channels = c1a4.sinks = k1#具体定义sourcea4.sources.r1.type = spooldira4.sources.r1.spoolDir

2017-02-27 21:08:08 280

原创 sqoop的安装与简单使用

sqoop安装：安装在一台节点上就可以了。1.上传sqoop2.安装和配置在添加sqoop到环境变量将数据库连接驱动拷贝到$SQOOP_HOME/lib里3.使用第一类：数据库中的数据导入到HDFS上 sqoop import --connect jdbc:mysql://192.168.1.10:3306/user--u

2017-02-27 21:01:10 359

原创 hive的安装以及简单的使用

Hive只在一个节点上安装即可1.上传tar包 2.解压 tar -zxvf hive-0.9.0.tar.gz -C /usr/local3.配置mysql metastore（切换到root用户）配置HIVE_HOME环境变量 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6_3

2017-02-27 21:01:04 338

原创 Hbase的集群搭建

1.上传hbase安装包2.解压3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh export JAVA_HOME=/usr/local/java/jdk1.7.0_55

2017-02-27 20:51:16 290

原创 zookeeper的应用场景

ZooKeeper典型应用场景一览数据发布与订阅（配置中心）发布与订阅模型，即所谓的配置中心，顾名思义就是发布者将数据发布到ZK节点上，供订阅者动态获取数据，实现配置信息的集中式管理和动态更新。例如全局的配置信息，服务式服务框架的服务地址列表等就非常适合使用。· 应用中用到的一些配置信息放到ZK上进行集中管理。这类场景通常是这样：应用在

2017-02-27 20:45:25 299

原创 zookeeper分布式的搭建

zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg，需要将其修改为zoo.cfg。其中各配置项的含义，解释如下：1.tickTime：CS通信心跳时间Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。tickTime=2000 2

2017-02-27 20:19:41 271

原创 hadoop2.4的HA集群搭建

1.修改Linux主机名 vi /etc/sysconfig/neteork2.修改IP vi /etc/sysconfig/network-scripts/ifcfg-eth03.修改主机名和IP的映射关系 vi /etc/hosts你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等）/etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭

2017-02-27 20:06:05 311

原创 hadoop2.4伪分布的搭建

1.准备Linux环境 1.0点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.8.0 子网掩码：255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMne

2017-02-27 19:48:01 236