2017年08月_大数据技术之路---花火

原创 hive学习教程（五）：hive和Hbase整合

一、Hive整合HBase原理Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive-hbase-handler-0.9.0.jar工具类，如下图 Hive与HBase通信示意图二、具体步骤安装前说明 1、关于hadoop、HBase、Hive集群的搭建，请参考本人博文“基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布

2017-08-29 20:07:15 626

原创 hive学习教程（四）：hive的sql支持

七、hive的支持的sql目录一、关系运算：… 4 1. 等值比较: =. 4 2. 不等值比较: <>. 4 3. 小于比较: <. 4 4. 小于等于比较: <=. 4 5. 大于比较: >. 5 6. 大于等于比较: >=. 5 7. 空值判断: IS NULL. 5 8. 非空判断: IS NOT NULL. 6 9. LIKE比较: LIKE. 6 10. JAVA

2017-08-29 19:57:57 2509

原创 hive学习教程（三）：hive的详细配置

六、hive的配置详解hive的配置：hive.ddl.output.format：hive的ddl语句的输出格式，默认是text，纯文本，还有json格式，这个是0.90以后才出的新配置；hive.exec.script.wrapper：hive调用脚本时的包装器，默认是null，如果设置为python的话，那么在做脚本调用操作时语句会变为python

2017-08-29 19:55:36 364

原创 hive学习教程（二）：hive的数据类型和hive的数据模型

四、hive的数据类型Hive支持两种数据类型，一类叫原子数据类型，一类叫复杂数据类型。　　原子数据类型包括数值型、布尔型和字符串类型，具体如下表所示：基本数据类型类型描述示例 TINYINT 1个字节（8位）有符

2017-08-29 19:54:40 489

原创 Hive学习教程（一）：hive的介绍和hive技术架构

一、hive的介绍1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了

2017-08-29 19:47:49 664

原创 hadoop分布集群搭建

主机名 IP Itcast 132 namenode zkfc Itcast02 138 datanode nodemanager zookeeper journalenode itcast03 130 datanode nodemanager zookeeper journalenode Itcast04 139

2017-08-28 22:45:14 582

原创 hadoop伪分布式集群搭建

1.准备Linux环境 1.0点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.1.0 子网掩码：255.255.255.0 -> apply -> ok 回到windows –> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1

2017-08-28 22:33:09 309

原创 zookeeper安装教程（伪分布式和分布式）

伪分布式创建环境目录 ~ mkdir /home/conan/zoo/zk1 ~ mkdir /home/conan/zoo/zk2 ~ mkdir /home/conan/zoo/zk3新建myid文件 ~ echo “1” > /home/conan/zoo/zk1/myid ~ echo “2” > /home/conan/zoo/zk2/myid ~ echo “3” > /ho

2017-08-28 22:05:53 1084

原创 storm教程（六）：Storm 和kafka的集成

我们知道storm的作用主要是进行流式计算，对于源源不断的均匀数据流流入处理是非常有效的，而现实生活中大部分场景并不是均匀的数据流，而是时而多时而少的数据流入，这种情况下显然用批量处理是不合适的，如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉，应对这种情况，使用kafka作为消息队列是非常合适的选择，kafka可以将不均匀的数据转换成均匀的消息流，从而和storm比较完善的结合，这

2017-08-27 23:51:15 2527

原创 storm教程（五）：storm消息的可靠性保障与acker机制、Thrift client 集群监控

消息的可靠性保障与acker机制Storm 能够保证每一个由 Spout 发送的消息都能够得到完整地处理。本文详细解释了 Storm 如何实现这种保障机制，以及作为用户如何使用好 Storm 的可靠性机制。消息的“完整性处理”是什么意思一个从 spout 中发送出的 tuple 会产生上千个基于它创建的 tuples。例如，有这样一个 word-count 拓扑：TopologyBuilde

2017-08-27 23:19:10 1677 1

原创 storm教程（四）：storm策略和storm并行度

storm策略storm里面有6种类型的stream grouping: 1.Shuffle Grouping: 随机分组，随机派发stream里面的tuple，保证每个bolt接收到的tuple数目相同。轮询，平均分配。 2. Fields Grouping：按字段分组，比如按userid来分组，具有同样userid的tuple会被分到相同的Bolts，而不同的userid则会被分配

2017-08-27 22:58:10 4929

原创 storm教程（三）：用Java开发storm

1、操作模式开始之前，有必要了解一下Storm的操作模式。有下面两种方式。本地模式在本地模式下，Storm拓扑结构运行在本地计算机的单一JVM进程上。这个模式用于开发、测试以及调试，因为这是观察所有组件如何协同工作的最简单方法。在这种模式下，我们可以调整参数，观察我们的拓扑结构如何在不同的Storm配置环境下运行。要在本地模式下运行，我们要下载Storm开发依赖，以便用来开发并测试我们的拓扑

2017-08-27 22:47:45 16863 1

原创 storm教程（二）：Storm Topology组件和Storm数据源和输出选择

Storm Topology组件前面的章节已经提到过，Storm集群中的任务称之为Topology。对比Hadoop中的MapReduce job，mapper用于从数据源中获取数据，经过简单处理，以一定的格式传递给reducer，reducer负责后续处理。类似的，Topology任务也要从数据源中获取数据，然后进行后续处理。在Topology中从外部数据源获取数据的组件，称之为Spout

2017-08-27 22:14:20 4236

原创 storm教程（一）：storm基本概念和集群架构

一、storm 基本概念对比Hadoop的批处理，Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数据，然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时；也就是说，所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性，这就让Storm可以扩展到不同的机器上进行大批量的数据处理。他同样还有以下的这些特性：

2017-08-27 22:08:33 1905

原创 storm 安装教程

搭建storm集群的步骤： 1、设置zookeeper集群 2、安装依赖到所有nimbus和worker节点 3、下载并解压storm发布版本到所有nimbus和worker节点 4、配置storm.yaml 5、启动相关后台进程1 、配置zookeeper集群略2 、安装依赖到nimbus和worker节点 storm需要依赖的是： 1、Java 6 2、Py

2017-08-27 21:54:35 1057

原创 Eclipse启动Tomcat时server.xml和content.xml自动还原问题

当我们在处理中文乱码或是配置数据源时，我们要修改Tomcat下的server.xml和content.xml文件。但是当我们修改完后重启Tomcat服务器时发现xml文件又被还原了，修改无效果。为什么会还原？ Tomcat服务器在Eclipse中启动时，会自动发布Eclipse中部署的项目，但是我的项目是自己手动在外面部署的，Eclipse只认得在它里面部署的项目，因此它会创建一个新的serv

2017-08-13 14:33:07 713

风中云彩的博客