2018年08月_大数据专家

转载 Hive的三种安装方式（内嵌模式，本地模式远程模式）

一、安装模式介绍： Hive官网上介绍了Hive的3种安装方式，分别对应不同的应用场景。 1、内嵌模式（元数据保村在内嵌的derby种，允许一个会话链接，尝试多个会话链接时会报错） 2、本地模式（本地安装mysql 替代derby存储元数据） 3、远程模式（远程安装mysql 替代derby存储元数据）二、安装环境以及前提说明：首先，Hive...

2018-08-12 19:01:56 1932

原创 storm流式计算的应用案例

Storm集群部署及单词计数目标：通过本次能够掌握Strom集群搭建、Storm配置文件、Storm源码管理、Storm编程模型。课程大纲：集群部署的基本流程集群部署的基础环境准备 Storm集群部署 Storm集群的常用操作命令 Storm集群的进程及日志熟悉 Storm源码下载及目录熟悉 Storm 单词计数案列内容集群部署的基本流程...

2018-08-04 22:27:46 1721

原创 storm流式计算

Storm是什么目标：通过本次的学习能够了解离线计算与流式计算的区别、掌握Storm框架的基础知识、了解流式计算的一般架构图。课程大纲：离线计算是什么？流式计算是什么？流式计算与离线计算的区别？ Storm是什么？ Storm与Hadoop的区别？ Storm的应用场景及行业案例 Storm的核心组件（重点掌握） Storm的编程模型（重点掌握）...

2018-08-04 22:27:32 807

原创 storm消息容错机制

1、Storm 消息容错机制（掌握）对于每个Spout Tuple保存一个ack-val的校验值，它的初始值为0，然后每发射一个tuple或者ack一个tuple，tuple的id都要跟这个校验值异或一下，并且把得到的值更新为ack-val的新值。 <ROOTID,ACKVALUE>1.1、总体介绍在storm中，可靠的信息处理机制是从spout开始的。一个提供...

2018-08-03 10:42:23 947

原创 storm集群配置

以下是从storm的config类中搜集的所有storm支持的配置项(Based storm 0.6.0):配置项配置说明storm.zookeeper.servers ZooKeeper服务器列表storm.zookeeper.port ZooKeeper连接端口storm.local.dir storm使用的本地文件系统目录(必须存在并且storm进程可读写...

2018-08-03 10:42:07 244

原创 logstash

Logstash与Flume对比：组件比较： Flume：source channel sink Logstash: input filter output 特性比较： Flume：在高可用方面是优于Logstash Flume一直看重的是数据传输的安全性，在数...

2018-08-03 10:41:50 423

原创 Redis基础

redis介绍 redis安装（重点） redis客户端 redis数据类型（重点） redis持久化 redis主从复制 redis集群（重点） redis集群的连接 redis集群的jedis连接（重点） redis介绍什么是NoSql 为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案，就是NoSql数据库。NoSQL，泛指非关系型的数...

2018-08-03 10:41:25 763

一、kafka-manager简介为了简化开发者和服务工程师维护Kafka集群的工作，Yahoo构建了一个叫做Kafka管理器的基于Web工具，叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀，或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时，这个管理工具也是一个非常好的可以快速浏览这...

2018-08-03 10:41:13 1050

原创 kafka

1、Kafka是什么（了解）在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache I...

2018-08-03 10:40:59 333

原创 Spark-On-YARN

Spark-On-YARN官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2.配置安装安装hadoop：需要安装HDFS模块和YARN模块，HDFS必须安装，spark运行时要把jar包存放到HDFS上。安装Spark：解压Spark安装程序到一台服务器上，修改spark-env.sh配置文件，spark程序...

2018-08-03 10:40:36 483

原创 kafka常见问题

kafka常见问题1、如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列，只要一有producer生产数据，那consumer就会将数据消费。当然这里会产生一个很严重的问题，如果你重启一消费者程序，那你连一条数据都抓不到，但是log文件中明明可以看到所有数据都好好的存在。换句话说，一旦你消费过这些数据，那你就无法再次用同一个groupid消费同一组数据了。原因：消费...

2018-08-03 10:40:20 658

原创 spark streaming

Spark Streaming 课程目标掌握Spark Streaming的原理熟练使用Spark Streaming完成流式计算任务 Spark Streaming介绍 Spark Streaming概述什么是Spark Streaming Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark...

2018-08-03 10:39:59 1159

原创编译spark源码并导入到IDEA中

编译spark源码并导入到IDEA中目的根据需要自定义编译spark相应的模块修改spark源码并重新编译spark 环境需求操作系统为CentOS6.x 64bit，安装了桌面内存4G以上最佳下载IDEA的Linux版本，用于修改Spark源码步骤安装JDK 安装Maven 下载spark源码教学...

2018-08-02 00:10:25 1135

原创 spark RDD

Spark计算模型目标熟练使用RDD的算子完成计算掌握RDD的原理弹性分布式数据集RDD RDD概述什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允...

2018-08-02 00:10:10 434

原创 Scala编程实战

Scala编程实战课程目标目标：熟练使用Scala编写程序项目概述需求目前大多数的分布式架构底层通信都是通过RPC实现的，RPC框架非常多，比如前我们学过的Hadoop项目的RPC通信框架，但是Hadoop在设计之初就是为了运行长达数小时的批量分析而设计的，在某些极端的情况下，任务提交的延迟很高，所以Hadoop的RPC显得有些笨重。...

2018-08-02 00:09:32 778

原创 Scala高级特性

Scala高级特性课程目标目标一：深入理解高阶函数目标一：深入理解隐式转换高阶函数概念 Scala混合了面向对象和函数式编程的特性，我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中，函数是“头等公民”，高阶函数包含：作为值的函数、匿名函数、闭包、柯里化等等。作为值的函数可以像任何其他数据类型一样被传递和操作的函数，每当你想要给...

2018-08-02 00:08:58 170

原创 scala编程基础

（初级）熟练使用scala编写Spark程序（中级）动手编写一个简易Spark通信框架（高级）为阅读Spark内核源码做准备 Scala概述什么是Scala Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。优雅：这是框架设计师第一个要考...

2018-08-02 00:08:18 211

原创 scala基础

Scala第一天内容今日任务1、了解Scala2、安装Scala开发环境3、变量申明4、条件表达式和块表达式5、Scala的循环6、方法的定义7、函数的定义8、Scala的元 9、Scala的数组目标1、了解Scala这门语言2、掌握开发环境搭建3、掌握Scala基础的语法4、掌握Scala方法、函数的定义5、掌握Scala的元组和数组定义第一节、关...

2018-08-02 00:08:02 322

原创 flume的使用

文本数据：软件、硬件打印信息。流媒体：音视频、图片flume是什么？？flume是一个高效的可靠、可用的、分布式的海量日志数据收集、聚合、传输工具。Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amount...

2018-08-01 00:06:35 414

原创 hive的介绍

hive的产生 hive的介绍 hive的安装 hive的数据类型基本命令操作一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。由Facebook开源，最初用于解决海量结构化的日志数据统计问题 MapRedu...

2018-08-01 00:05:44 1274

原创 MR多表连接

mapreduce高级特性3第一节：结合案例讲解mr重要知识点1.1 多表连接第一张表的内容：login：uid sexid logindate1 1 2017-04-17 08:16:202 2 2017-04-15 06:18:203 1 2017-04-16 05:16:244 2 2017-04-14 03:18:205 ...

2018-08-01 00:05:26 438

原创 MR 的shuffle机制

mapreduce高级特性及shuffle第一节：shuffle机制1.1 概述mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；shuffle:洗牌、发牌——（核心机制：数据分区，排序，缓存）；具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数...

2018-08-01 00:04:50 1951 2

原创 Hadoop HA

第一节：HADOOP HA概述1.1 背景在Hadoop 2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）。每个群集都有一个NameNode，如果该机器或进程不可用，整个群集将不可用，直到NameNode重新启动或在单独的计算机上启动为止。这在两个主要方面影响了HDFS集群的总体可用性：在计划外事件（例如机器崩溃）的情况下，直到操作员重新启动NameNod...

2018-08-01 00:04:17 403

qq_25460227的博客