- 博客(32)
- 资源 (1)
- 收藏
- 关注
转载 Hive的三种安装方式(内嵌模式,本地模式远程模式)
一、安装模式介绍: Hive官网上介绍了Hive的3种安装方式,分别对应不同的应用场景。 1、内嵌模式(元数据保村在内嵌的derby种,允许一个会话链接,尝试多个会话链接时会报错) 2、本地模式(本地安装mysql 替代derby存储元数据) 3、远程模式(远程安装mysql 替代derby存储元数据)二、安装环境以及前提说明: 首先,Hive...
2018-08-12 19:01:56 1944
原创 storm流式计算的应用案例
Storm集群部署及单词计数目标: 通过本次能够掌握Strom集群搭建、Storm配置文件、Storm源码管理、Storm编程模型。课程大纲:集群部署的基本流程 集群部署的基础环境准备 Storm集群部署 Storm集群的常用操作命令 Storm集群的进程及日志熟悉 Storm源码下载及目录熟悉 Storm 单词计数案列 内容集群部署的基本流程...
2018-08-04 22:27:46 1737
原创 storm流式计算
Storm是什么目标: 通过本次的学习能够了解离线计算与流式计算的区别、掌握Storm框架的基础知识、了解流式计算的一般架构图。课程大纲:离线计算是什么? 流式计算是什么? 流式计算与离线计算的区别? Storm是什么? Storm与Hadoop的区别? Storm的应用场景及行业案例 Storm的核心组件(重点掌握) Storm的编程模型(重点掌握)...
2018-08-04 22:27:32 828
原创 storm消息容错机制
1、Storm 消息容错机制(掌握)对于每个Spout Tuple保存一个ack-val的校验值,它的初始值为0,然后每发射一个tuple或者ack一个tuple,tuple的id都要跟这个校验值异或一下,并且把得到的值更新为ack-val的新值。 <ROOTID,ACKVALUE>1.1、总体介绍在storm中,可靠的信息处理机制是从spout开始的。 一个提供...
2018-08-03 10:42:23 965
原创 storm集群配置
以下是从storm的config类中搜集的所有storm支持的配置项(Based storm 0.6.0):配置项 配置说明storm.zookeeper.servers ZooKeeper服务器列表storm.zookeeper.port ZooKeeper连接端口storm.local.dir storm使用的本地文件系统目录(必须存在并且storm进程可读写...
2018-08-03 10:42:07 255
原创 logstash
Logstash与Flume对比: 组件比较: Flume:source channel sink Logstash: input filter output 特性比较: Flume:在高可用方面是优于Logstash Flume一直看重的是数据传输的安全性,在数...
2018-08-03 10:41:50 443
原创 Redis基础
redis介绍 redis安装(重点) redis客户端 redis数据类型(重点) redis持久化 redis主从复制 redis集群(重点) redis集群的连接 redis集群的jedis连接(重点) redis介绍 什么是NoSql 为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案,就是NoSql数据库。NoSQL,泛指非关系型的数...
2018-08-03 10:41:25 770
原创 kafka-manager
一、kafka-manager简介为了简化开发者和服务工程师维护Kafka集群的工作,Yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时,这个管理工具也是一个非常好的可以快速浏览这...
2018-08-03 10:41:13 1062
原创 kafka
1、Kafka是什么(了解)在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache I...
2018-08-03 10:40:59 347
原创 Spark-On-YARN
Spark-On-YARN官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2.配置安装安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序...
2018-08-03 10:40:36 505
原创 kafka常见问题
kafka常见问题1、如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。原因:消费...
2018-08-03 10:40:20 673
原创 spark streaming
Spark Streaming 课程目标 掌握Spark Streaming的原理 熟练使用Spark Streaming完成流式计算任务 Spark Streaming介绍 Spark Streaming概述 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark...
2018-08-03 10:39:59 1168
原创 编译spark源码并导入到IDEA中
编译spark源码并导入到IDEA中目的 根据需要自定义编译spark相应的模块 修改spark源码并重新编译spark 环境需求 操作系统为CentOS6.x 64bit,安装了桌面 内存4G以上最佳 下载IDEA的Linux版本,用于修改Spark源码 步骤 安装JDK 安装Maven 下载spark源码 教学...
2018-08-02 00:10:25 1144
原创 spark RDD
Spark计算模型目标 熟练使用RDD的算子完成计算 掌握RDD的原理 弹性分布式数据集RDD RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允...
2018-08-02 00:10:10 450
原创 Scala编程实战
Scala编程实战 课程目标 目标:熟练使用Scala编写程序 项目概述 需求 目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量分析而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。...
2018-08-02 00:09:32 786
原创 Scala高级特性
Scala高级特性 课程目标 目标一:深入理解高阶函数 目标一:深入理解隐式转换 高阶函数 概念 Scala混合了面向对象和函数式编程的特性,我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。 作为值的函数 可以像任何其他数据类型一样被传递和操作的函数,每当你想要给...
2018-08-02 00:08:58 191
原创 scala编程基础
(初级)熟练使用scala编写Spark程序(中级)动手编写一个简易Spark通信框架(高级)为阅读Spark内核源码做准备 Scala概述 什么是Scala Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。优雅:这是框架设计师第一个要考...
2018-08-02 00:08:18 237
原创 scala基础
Scala第一天内容今日任务1、了解Scala2、安装Scala开发环境3、变量申明4、条件表达式和块表达式5、Scala的循环6、方法的定义7、函数的定义8、Scala的元 9、Scala的数组目标1、了解Scala这门语言2、掌握开发环境搭建3、掌握Scala基础的语法4、掌握Scala方法、函数的定义5、掌握Scala的元组和数组定义第一节、关...
2018-08-02 00:08:02 344
原创 flume的使用
文本数据:软件、硬件打印信息。流媒体:音视频、图片flume是什么??flume是一个高效的可靠、可用的、分布式的海量日志数据收集、聚合、传输工具。Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amount...
2018-08-01 00:06:35 425
原创 hive的介绍
hive的产生 hive的介绍 hive的安装 hive的数据类型 基本命令操作一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。 由Facebook开源,最初用于解决海量结构化的日志数据统计问题 MapRedu...
2018-08-01 00:05:44 1292
原创 MR多表连接
mapreduce高级特性3第一节:结合案例讲解mr重要知识点1.1 多表连接第一张表的内容:login:uid sexid logindate1 1 2017-04-17 08:16:202 2 2017-04-15 06:18:203 1 2017-04-16 05:16:244 2 2017-04-14 03:18:205 ...
2018-08-01 00:05:26 449
原创 MR 的shuffle机制
mapreduce高级特性及shuffle第一节:shuffle机制1.1 概述mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;shuffle:洗牌、发牌——(核心机制:数据分区,排序,缓存);具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数...
2018-08-01 00:04:50 1983 2
原创 Hadoop HA
第一节:HADOOP HA概述1.1 背景 在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。每个群集都有一个NameNode,如果该机器或进程不可用,整个群集将不可用,直到NameNode重新启动或在单独的计算机上启动为止。这在两个主要方面影响了HDFS集群的总体可用性: 在计划外事件(例如机器崩溃)的情况下,直到操作员重新启动NameNod...
2018-08-01 00:04:17 416
原创 zookeeper java API 的使用
1 eclipse环境配置 普通的java项目 创建一个java项目 依赖的jar包 zookeeper-3.4.7\lib下的 jline-0.9.94.jar log4j-1.2.15.jar netty-3.2.2.Final.jar slf4j-api-1.6.1.jar slf4j-log4j12-1.6.1...
2018-07-31 20:13:00 564
原创 zookeeper集群配置
集群规划 主机名(hostname) 安装软件 运行进程 min1 zookeeper-3.4.7 QuorumPeerMain min2 zookeeper-3.4.7 QuorumPeerMain min3 zookeeper-3.4.7 QuorumPeerMain 安装步骤 在m...
2018-07-31 20:04:28 156
原创 zookeeper的概念
什么是zookeeper Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务 zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) Zookeeper集群的角色: Leader 和 follower (Observer) zookeeper在底层...
2018-07-31 19:54:25 230
原创 HDFS的java api使用
1.2 HDFS控制(Java)hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(Configuration conf); ...
2018-07-31 19:39:13 461
原创 HDFS的概念
1.1 HDFS的介绍 源自于Google的GFS论文 发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务 。1.2 HDFS设计目标 自动快速检测应对硬件错误 流式访问数据 移动计算比...
2018-07-31 19:24:58 937
原创 hadoop分布式集群搭建
一、分布式集群搭建1.HADOOP集群规划2.HADOOP集群安装步骤1.准备三台Centos6.7 64bit虚拟机,虚拟机名分别为:Centos6.7_min1Centos6.7_min2Centos6.7_min3注意 三台机器使用root用户登陆系统2.分别修改虚拟机的主机名(hostname)分别在机器中执行修改hostname命令(需要重启)...
2018-07-31 19:12:02 192
原创 Hadoop集群安装,三种
Linux环境设置/*安装Hadoop集群时要确保以下几个方面1.本机与虚拟机之间是否可以通信(Ping)。如果不行检查下面 1.1本机防火墙关闭(开启情况是本机可以ping虚拟机,虚拟机不能ping本机) 1.2虚拟机是克隆的情况(按照Linux文档中,修改ip地址等方法) 1.3虚拟机设置--网卡是否是仅主机模式或者桥接模式:仅主机模式需要检查...
2018-07-31 19:08:05 378
原创 Hadoop是什么?基本概念
1.1 什么是HADOOPApache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:Hadoop Common:支持其他Hadoop模块的常用工具。Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。...
2018-07-31 19:01:55 12021
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人