- 博客(23)
- 资源 (1)
- 收藏
- 关注
转载 Hive的三种安装方式(内嵌模式,本地模式远程模式)
一、安装模式介绍: Hive官网上介绍了Hive的3种安装方式,分别对应不同的应用场景。 1、内嵌模式(元数据保村在内嵌的derby种,允许一个会话链接,尝试多个会话链接时会报错) 2、本地模式(本地安装mysql 替代derby存储元数据) 3、远程模式(远程安装mysql 替代derby存储元数据)二、安装环境以及前提说明: 首先,Hive...
2018-08-12 19:01:56 1932
原创 storm流式计算的应用案例
Storm集群部署及单词计数目标: 通过本次能够掌握Strom集群搭建、Storm配置文件、Storm源码管理、Storm编程模型。课程大纲:集群部署的基本流程 集群部署的基础环境准备 Storm集群部署 Storm集群的常用操作命令 Storm集群的进程及日志熟悉 Storm源码下载及目录熟悉 Storm 单词计数案列 内容集群部署的基本流程...
2018-08-04 22:27:46 1721
原创 storm流式计算
Storm是什么目标: 通过本次的学习能够了解离线计算与流式计算的区别、掌握Storm框架的基础知识、了解流式计算的一般架构图。课程大纲:离线计算是什么? 流式计算是什么? 流式计算与离线计算的区别? Storm是什么? Storm与Hadoop的区别? Storm的应用场景及行业案例 Storm的核心组件(重点掌握) Storm的编程模型(重点掌握)...
2018-08-04 22:27:32 807
原创 storm消息容错机制
1、Storm 消息容错机制(掌握)对于每个Spout Tuple保存一个ack-val的校验值,它的初始值为0,然后每发射一个tuple或者ack一个tuple,tuple的id都要跟这个校验值异或一下,并且把得到的值更新为ack-val的新值。 <ROOTID,ACKVALUE>1.1、总体介绍在storm中,可靠的信息处理机制是从spout开始的。 一个提供...
2018-08-03 10:42:23 947
原创 storm集群配置
以下是从storm的config类中搜集的所有storm支持的配置项(Based storm 0.6.0):配置项 配置说明storm.zookeeper.servers ZooKeeper服务器列表storm.zookeeper.port ZooKeeper连接端口storm.local.dir storm使用的本地文件系统目录(必须存在并且storm进程可读写...
2018-08-03 10:42:07 244
原创 logstash
Logstash与Flume对比: 组件比较: Flume:source channel sink Logstash: input filter output 特性比较: Flume:在高可用方面是优于Logstash Flume一直看重的是数据传输的安全性,在数...
2018-08-03 10:41:50 423
原创 Redis基础
redis介绍 redis安装(重点) redis客户端 redis数据类型(重点) redis持久化 redis主从复制 redis集群(重点) redis集群的连接 redis集群的jedis连接(重点) redis介绍 什么是NoSql 为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案,就是NoSql数据库。NoSQL,泛指非关系型的数...
2018-08-03 10:41:25 763
原创 kafka-manager
一、kafka-manager简介为了简化开发者和服务工程师维护Kafka集群的工作,Yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时,这个管理工具也是一个非常好的可以快速浏览这...
2018-08-03 10:41:13 1050
原创 kafka
1、Kafka是什么(了解)在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache I...
2018-08-03 10:40:59 333
原创 Spark-On-YARN
Spark-On-YARN官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2.配置安装安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序...
2018-08-03 10:40:36 483
原创 kafka常见问题
kafka常见问题1、如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。原因:消费...
2018-08-03 10:40:20 658
原创 spark streaming
Spark Streaming 课程目标 掌握Spark Streaming的原理 熟练使用Spark Streaming完成流式计算任务 Spark Streaming介绍 Spark Streaming概述 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark...
2018-08-03 10:39:59 1159
原创 编译spark源码并导入到IDEA中
编译spark源码并导入到IDEA中目的 根据需要自定义编译spark相应的模块 修改spark源码并重新编译spark 环境需求 操作系统为CentOS6.x 64bit,安装了桌面 内存4G以上最佳 下载IDEA的Linux版本,用于修改Spark源码 步骤 安装JDK 安装Maven 下载spark源码 教学...
2018-08-02 00:10:25 1135
原创 spark RDD
Spark计算模型目标 熟练使用RDD的算子完成计算 掌握RDD的原理 弹性分布式数据集RDD RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允...
2018-08-02 00:10:10 434
原创 Scala编程实战
Scala编程实战 课程目标 目标:熟练使用Scala编写程序 项目概述 需求 目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量分析而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。...
2018-08-02 00:09:32 778
原创 Scala高级特性
Scala高级特性 课程目标 目标一:深入理解高阶函数 目标一:深入理解隐式转换 高阶函数 概念 Scala混合了面向对象和函数式编程的特性,我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。 作为值的函数 可以像任何其他数据类型一样被传递和操作的函数,每当你想要给...
2018-08-02 00:08:58 170
原创 scala编程基础
(初级)熟练使用scala编写Spark程序(中级)动手编写一个简易Spark通信框架(高级)为阅读Spark内核源码做准备 Scala概述 什么是Scala Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。优雅:这是框架设计师第一个要考...
2018-08-02 00:08:18 211
原创 scala基础
Scala第一天内容今日任务1、了解Scala2、安装Scala开发环境3、变量申明4、条件表达式和块表达式5、Scala的循环6、方法的定义7、函数的定义8、Scala的元 9、Scala的数组目标1、了解Scala这门语言2、掌握开发环境搭建3、掌握Scala基础的语法4、掌握Scala方法、函数的定义5、掌握Scala的元组和数组定义第一节、关...
2018-08-02 00:08:02 322
原创 flume的使用
文本数据:软件、硬件打印信息。流媒体:音视频、图片flume是什么??flume是一个高效的可靠、可用的、分布式的海量日志数据收集、聚合、传输工具。Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amount...
2018-08-01 00:06:35 414
原创 hive的介绍
hive的产生 hive的介绍 hive的安装 hive的数据类型 基本命令操作一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。 由Facebook开源,最初用于解决海量结构化的日志数据统计问题 MapRedu...
2018-08-01 00:05:44 1274
原创 MR多表连接
mapreduce高级特性3第一节:结合案例讲解mr重要知识点1.1 多表连接第一张表的内容:login:uid sexid logindate1 1 2017-04-17 08:16:202 2 2017-04-15 06:18:203 1 2017-04-16 05:16:244 2 2017-04-14 03:18:205 ...
2018-08-01 00:05:26 438
原创 MR 的shuffle机制
mapreduce高级特性及shuffle第一节:shuffle机制1.1 概述mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;shuffle:洗牌、发牌——(核心机制:数据分区,排序,缓存);具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数...
2018-08-01 00:04:50 1951 2
原创 Hadoop HA
第一节:HADOOP HA概述1.1 背景 在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。每个群集都有一个NameNode,如果该机器或进程不可用,整个群集将不可用,直到NameNode重新启动或在单独的计算机上启动为止。这在两个主要方面影响了HDFS集群的总体可用性: 在计划外事件(例如机器崩溃)的情况下,直到操作员重新启动NameNod...
2018-08-01 00:04:17 403
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人