自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

转载 Hive的三种安装方式(内嵌模式,本地模式远程模式)

一、安装模式介绍:    Hive官网上介绍了Hive的3种安装方式,分别对应不同的应用场景。    1、内嵌模式(元数据保村在内嵌的derby种,允许一个会话链接,尝试多个会话链接时会报错)    2、本地模式(本地安装mysql 替代derby存储元数据)    3、远程模式(远程安装mysql 替代derby存储元数据)二、安装环境以及前提说明:    首先,Hive...

2018-08-12 19:01:56 1908

原创 storm流式计算的应用案例

Storm集群部署及单词计数目标:         通过本次能够掌握Strom集群搭建、Storm配置文件、Storm源码管理、Storm编程模型。课程大纲:集群部署的基本流程 集群部署的基础环境准备 Storm集群部署 Storm集群的常用操作命令 Storm集群的进程及日志熟悉 Storm源码下载及目录熟悉 Storm 单词计数案列 内容集群部署的基本流程...

2018-08-04 22:27:46 1695

原创 storm流式计算

Storm是什么目标:         通过本次的学习能够了解离线计算与流式计算的区别、掌握Storm框架的基础知识、了解流式计算的一般架构图。课程大纲:离线计算是什么? 流式计算是什么? 流式计算与离线计算的区别? Storm是什么? Storm与Hadoop的区别? Storm的应用场景及行业案例 Storm的核心组件(重点掌握) Storm的编程模型(重点掌握)...

2018-08-04 22:27:32 775

原创 storm消息容错机制

1、Storm 消息容错机制(掌握)对于每个Spout Tuple保存一个ack-val的校验值,它的初始值为0,然后每发射一个tuple或者ack一个tuple,tuple的id都要跟这个校验值异或一下,并且把得到的值更新为ack-val的新值。 <ROOTID,ACKVALUE>1.1、总体介绍在storm中,可靠的信息处理机制是从spout开始的。 一个提供...

2018-08-03 10:42:23 920

原创 storm集群配置

以下是从storm的config类中搜集的所有storm支持的配置项(Based storm 0.6.0):配置项    配置说明storm.zookeeper.servers    ZooKeeper服务器列表storm.zookeeper.port    ZooKeeper连接端口storm.local.dir    storm使用的本地文件系统目录(必须存在并且storm进程可读写...

2018-08-03 10:42:07 237

原创 logstash

Logstash与Flume对比:    组件比较:        Flume:source    channel        sink        Logstash: input     filter     output        特性比较:        Flume:在高可用方面是优于Logstash            Flume一直看重的是数据传输的安全性,在数...

2018-08-03 10:41:50 406

原创 Redis基础

redis介绍 redis安装(重点) redis客户端 redis数据类型(重点) redis持久化 redis主从复制 redis集群(重点) redis集群的连接 redis集群的jedis连接(重点) redis介绍 什么是NoSql 为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案,就是NoSql数据库。NoSQL,泛指非关系型的数...

2018-08-03 10:41:25 737

原创 kafka-manager

一、kafka-manager简介为了简化开发者和服务工程师维护Kafka集群的工作,Yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时,这个管理工具也是一个非常好的可以快速浏览这...

2018-08-03 10:41:13 1035

原创 kafka

 1、Kafka是什么(了解)在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache I...

2018-08-03 10:40:59 321

原创 Spark-On-YARN

Spark-On-YARN官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2.配置安装安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序...

2018-08-03 10:40:36 450

原创 kafka常见问题

kafka常见问题1、如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。原因:消费...

2018-08-03 10:40:20 627

原创 spark streaming

Spark Streaming 课程目标 掌握Spark Streaming的原理 熟练使用Spark Streaming完成流式计算任务 Spark Streaming介绍 Spark Streaming概述 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark...

2018-08-03 10:39:59 1148

原创 编译spark源码并导入到IDEA中

编译spark源码并导入到IDEA中目的 根据需要自定义编译spark相应的模块 修改spark源码并重新编译spark 环境需求 操作系统为CentOS6.x 64bit,安装了桌面 内存4G以上最佳 下载IDEA的Linux版本,用于修改Spark源码 步骤 安装JDK 安装Maven 下载spark源码                    教学...

2018-08-02 00:10:25 1127

原创 spark RDD

Spark计算模型目标 熟练使用RDD的算子完成计算 掌握RDD的原理 弹性分布式数据集RDD RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允...

2018-08-02 00:10:10 428

原创 Scala编程实战

  Scala编程实战 课程目标 目标:熟练使用Scala编写程序    项目概述 需求 目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量分析而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。...

2018-08-02 00:09:32 770

原创 Scala高级特性

Scala高级特性 课程目标 目标一:深入理解高阶函数 目标一:深入理解隐式转换 高阶函数 概念 Scala混合了面向对象和函数式编程的特性,我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。 作为值的函数 可以像任何其他数据类型一样被传递和操作的函数,每当你想要给...

2018-08-02 00:08:58 161

原创 scala编程基础

(初级)熟练使用scala编写Spark程序(中级)动手编写一个简易Spark通信框架(高级)为阅读Spark内核源码做准备 Scala概述 什么是Scala Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。优雅:这是框架设计师第一个要考...

2018-08-02 00:08:18 195

原创 scala基础

Scala第一天内容今日任务1、了解Scala2、安装Scala开发环境3、变量申明4、条件表达式和块表达式5、Scala的循环6、方法的定义7、函数的定义8、Scala的元 9、Scala的数组目标1、了解Scala这门语言2、掌握开发环境搭建3、掌握Scala基础的语法4、掌握Scala方法、函数的定义5、掌握Scala的元组和数组定义第一节、关...

2018-08-02 00:08:02 303

原创 flume的使用

文本数据:软件、硬件打印信息。流媒体:音视频、图片flume是什么??flume是一个高效的可靠、可用的、分布式的海量日志数据收集、聚合、传输工具。Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amount...

2018-08-01 00:06:35 407

原创 hive的介绍

hive的产生 hive的介绍 hive的安装 hive的数据类型 基本命令操作一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。 由Facebook开源,最初用于解决海量结构化的日志数据统计问题 MapRedu...

2018-08-01 00:05:44 1264

原创 MR多表连接

mapreduce高级特性3第一节:结合案例讲解mr重要知识点1.1 多表连接第一张表的内容:login:uid sexid logindate1 1 2017-04-17 08:16:202   2 2017-04-15 06:18:203   1 2017-04-16 05:16:244   2 2017-04-14 03:18:205   ...

2018-08-01 00:05:26 427

原创 MR 的shuffle机制

mapreduce高级特性及shuffle第一节:shuffle机制1.1 概述mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;shuffle:洗牌、发牌——(核心机制:数据分区,排序,缓存);具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数...

2018-08-01 00:04:50 1846 2

原创 Hadoop HA

第一节:HADOOP HA概述1.1 背景​ 在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。每个群集都有一个NameNode,如果该机器或进程不可用,整个群集将不可用,直到NameNode重新启动或在单独的计算机上启动为止。这在两个主要方面影响了HDFS集群的总体可用性: 在计划外事件(例如机器崩溃)的情况下,直到操作员重新启动NameNod...

2018-08-01 00:04:17 392

原创 zookeeper java API 的使用

1 eclipse环境配置 普通的java项目 创建一个java项目 依赖的jar包 zookeeper-3.4.7\lib下的 jline-0.9.94.jar log4j-1.2.15.jar netty-3.2.2.Final.jar slf4j-api-1.6.1.jar slf4j-log4j12-1.6.1...

2018-07-31 20:13:00 549

原创 zookeeper集群配置

集群规划 主机名(hostname) 安装软件 运行进程 min1 zookeeper-3.4.7 QuorumPeerMain min2 zookeeper-3.4.7 QuorumPeerMain min3 zookeeper-3.4.7 QuorumPeerMain 安装步骤 在m...

2018-07-31 20:04:28 140

原创 zookeeper的概念

什么是zookeeper Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务 zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) Zookeeper集群的角色: Leader 和 follower (Observer) zookeeper在底层...

2018-07-31 19:54:25 185

原创 HDFS的java api使用

1.2 HDFS控制(Java)hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(Configuration conf); ...

2018-07-31 19:39:13 394

原创 HDFS的概念

1.1 HDFS的介绍​ 源自于Google的GFS论文 发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务 。1.2 HDFS设计目标 自动快速检测应对硬件错误 流式访问数据 移动计算比...

2018-07-31 19:24:58 885

原创 hadoop分布式集群搭建

一、分布式集群搭建1.HADOOP集群规划2.HADOOP集群安装步骤1.准备三台Centos6.7 64bit虚拟机,虚拟机名分别为:Centos6.7_min1Centos6.7_min2Centos6.7_min3注意 三台机器使用root用户登陆系统2.分别修改虚拟机的主机名(hostname)分别在机器中执行修改hostname命令(需要重启)...

2018-07-31 19:12:02 150

原创 Hadoop集群安装,三种

Linux环境设置/*安装Hadoop集群时要确保以下几个方面1.本机与虚拟机之间是否可以通信(Ping)。如果不行检查下面      1.1本机防火墙关闭(开启情况是本机可以ping虚拟机,虚拟机不能ping本机)      1.2虚拟机是克隆的情况(按照Linux文档中,修改ip地址等方法)      1.3虚拟机设置--网卡是否是仅主机模式或者桥接模式:仅主机模式需要检查...

2018-07-31 19:08:05 342

原创 Hadoop是什么?基本概念

1.1 什么是HADOOPApache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:Hadoop Common:支持其他Hadoop模块的常用工具。Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。...

2018-07-31 19:01:55 11950

原创 大数据没啥

大数据是人工智能、物联网和云计算的中间件

2018-07-03 17:52:43 160

计算机网络

计算机网络课件.华中大学出版社,第一、章课件

2015-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除