大数据专家-CSDN博客

转载 Hive的三种安装方式（内嵌模式，本地模式远程模式）

一、安装模式介绍： Hive官网上介绍了Hive的3种安装方式，分别对应不同的应用场景。 1、内嵌模式（元数据保村在内嵌的derby种，允许一个会话链接，尝试多个会话链接时会报错） 2、本地模式（本地安装mysql 替代derby存储元数据） 3、远程模式（远程安装mysql 替代derby存储元数据）二、安装环境以及前提说明：首先，Hive...

2018-08-12 19:01:56 1944

原创 storm流式计算的应用案例

Storm集群部署及单词计数目标：通过本次能够掌握Strom集群搭建、Storm配置文件、Storm源码管理、Storm编程模型。课程大纲：集群部署的基本流程集群部署的基础环境准备 Storm集群部署 Storm集群的常用操作命令 Storm集群的进程及日志熟悉 Storm源码下载及目录熟悉 Storm 单词计数案列内容集群部署的基本流程...

2018-08-04 22:27:46 1737

原创 storm流式计算

Storm是什么目标：通过本次的学习能够了解离线计算与流式计算的区别、掌握Storm框架的基础知识、了解流式计算的一般架构图。课程大纲：离线计算是什么？流式计算是什么？流式计算与离线计算的区别？ Storm是什么？ Storm与Hadoop的区别？ Storm的应用场景及行业案例 Storm的核心组件（重点掌握） Storm的编程模型（重点掌握）...

2018-08-04 22:27:32 828

原创 storm消息容错机制

1、Storm 消息容错机制（掌握）对于每个Spout Tuple保存一个ack-val的校验值，它的初始值为0，然后每发射一个tuple或者ack一个tuple，tuple的id都要跟这个校验值异或一下，并且把得到的值更新为ack-val的新值。 <ROOTID,ACKVALUE>1.1、总体介绍在storm中，可靠的信息处理机制是从spout开始的。一个提供...

2018-08-03 10:42:23 965

原创 storm集群配置

以下是从storm的config类中搜集的所有storm支持的配置项(Based storm 0.6.0):配置项配置说明storm.zookeeper.servers ZooKeeper服务器列表storm.zookeeper.port ZooKeeper连接端口storm.local.dir storm使用的本地文件系统目录(必须存在并且storm进程可读写...

2018-08-03 10:42:07 255

原创 logstash

Logstash与Flume对比：组件比较： Flume：source channel sink Logstash: input filter output 特性比较： Flume：在高可用方面是优于Logstash Flume一直看重的是数据传输的安全性，在数...

2018-08-03 10:41:50 443

原创 Redis基础

redis介绍 redis安装（重点） redis客户端 redis数据类型（重点） redis持久化 redis主从复制 redis集群（重点） redis集群的连接 redis集群的jedis连接（重点） redis介绍什么是NoSql 为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案，就是NoSql数据库。NoSQL，泛指非关系型的数...

2018-08-03 10:41:25 770

一、kafka-manager简介为了简化开发者和服务工程师维护Kafka集群的工作，Yahoo构建了一个叫做Kafka管理器的基于Web工具，叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀，或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时，这个管理工具也是一个非常好的可以快速浏览这...

2018-08-03 10:41:13 1062

原创 kafka

1、Kafka是什么（了解）在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache I...

2018-08-03 10:40:59 347

原创 Spark-On-YARN

Spark-On-YARN官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2.配置安装安装hadoop：需要安装HDFS模块和YARN模块，HDFS必须安装，spark运行时要把jar包存放到HDFS上。安装Spark：解压Spark安装程序到一台服务器上，修改spark-env.sh配置文件，spark程序...

2018-08-03 10:40:36 505

原创 kafka常见问题

kafka常见问题1、如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列，只要一有producer生产数据，那consumer就会将数据消费。当然这里会产生一个很严重的问题，如果你重启一消费者程序，那你连一条数据都抓不到，但是log文件中明明可以看到所有数据都好好的存在。换句话说，一旦你消费过这些数据，那你就无法再次用同一个groupid消费同一组数据了。原因：消费...

2018-08-03 10:40:20 673

原创 spark streaming

Spark Streaming 课程目标掌握Spark Streaming的原理熟练使用Spark Streaming完成流式计算任务 Spark Streaming介绍 Spark Streaming概述什么是Spark Streaming Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark...

2018-08-03 10:39:59 1168

原创编译spark源码并导入到IDEA中

编译spark源码并导入到IDEA中目的根据需要自定义编译spark相应的模块修改spark源码并重新编译spark 环境需求操作系统为CentOS6.x 64bit，安装了桌面内存4G以上最佳下载IDEA的Linux版本，用于修改Spark源码步骤安装JDK 安装Maven 下载spark源码教学...

2018-08-02 00:10:25 1144

原创 spark RDD

Spark计算模型目标熟练使用RDD的算子完成计算掌握RDD的原理弹性分布式数据集RDD RDD概述什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允...

2018-08-02 00:10:10 450

原创 Scala编程实战

Scala编程实战课程目标目标：熟练使用Scala编写程序项目概述需求目前大多数的分布式架构底层通信都是通过RPC实现的，RPC框架非常多，比如前我们学过的Hadoop项目的RPC通信框架，但是Hadoop在设计之初就是为了运行长达数小时的批量分析而设计的，在某些极端的情况下，任务提交的延迟很高，所以Hadoop的RPC显得有些笨重。...

2018-08-02 00:09:32 786

原创 Scala高级特性

Scala高级特性课程目标目标一：深入理解高阶函数目标一：深入理解隐式转换高阶函数概念 Scala混合了面向对象和函数式编程的特性，我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中，函数是“头等公民”，高阶函数包含：作为值的函数、匿名函数、闭包、柯里化等等。作为值的函数可以像任何其他数据类型一样被传递和操作的函数，每当你想要给...

2018-08-02 00:08:58 191

原创 scala编程基础

（初级）熟练使用scala编写Spark程序（中级）动手编写一个简易Spark通信框架（高级）为阅读Spark内核源码做准备 Scala概述什么是Scala Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。优雅：这是框架设计师第一个要考...

2018-08-02 00:08:18 237

原创 scala基础

Scala第一天内容今日任务1、了解Scala2、安装Scala开发环境3、变量申明4、条件表达式和块表达式5、Scala的循环6、方法的定义7、函数的定义8、Scala的元 9、Scala的数组目标1、了解Scala这门语言2、掌握开发环境搭建3、掌握Scala基础的语法4、掌握Scala方法、函数的定义5、掌握Scala的元组和数组定义第一节、关...

2018-08-02 00:08:02 344

原创 flume的使用

文本数据：软件、硬件打印信息。流媒体：音视频、图片flume是什么？？flume是一个高效的可靠、可用的、分布式的海量日志数据收集、聚合、传输工具。Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amount...

2018-08-01 00:06:35 425

原创 hive的介绍

hive的产生 hive的介绍 hive的安装 hive的数据类型基本命令操作一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。由Facebook开源，最初用于解决海量结构化的日志数据统计问题 MapRedu...

2018-08-01 00:05:44 1292

原创 MR多表连接

mapreduce高级特性3第一节：结合案例讲解mr重要知识点1.1 多表连接第一张表的内容：login：uid sexid logindate1 1 2017-04-17 08:16:202 2 2017-04-15 06:18:203 1 2017-04-16 05:16:244 2 2017-04-14 03:18:205 ...

2018-08-01 00:05:26 449

原创 MR 的shuffle机制

mapreduce高级特性及shuffle第一节：shuffle机制1.1 概述mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；shuffle:洗牌、发牌——（核心机制：数据分区，排序，缓存）；具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数...

2018-08-01 00:04:50 1983 2

原创 Hadoop HA

第一节：HADOOP HA概述1.1 背景在Hadoop 2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）。每个群集都有一个NameNode，如果该机器或进程不可用，整个群集将不可用，直到NameNode重新启动或在单独的计算机上启动为止。这在两个主要方面影响了HDFS集群的总体可用性：在计划外事件（例如机器崩溃）的情况下，直到操作员重新启动NameNod...

2018-08-01 00:04:17 416

原创 zookeeper java API 的使用

1 eclipse环境配置普通的java项目创建一个java项目依赖的jar包 zookeeper-3.4.7\lib下的 jline-0.9.94.jar log4j-1.2.15.jar netty-3.2.2.Final.jar slf4j-api-1.6.1.jar slf4j-log4j12-1.6.1...

2018-07-31 20:13:00 564

原创 zookeeper集群配置

集群规划主机名（hostname）安装软件运行进程 min1 zookeeper-3.4.7 QuorumPeerMain min2 zookeeper-3.4.7 QuorumPeerMain min3 zookeeper-3.4.7 QuorumPeerMain 安装步骤在m...

2018-07-31 20:04:28 156

原创 zookeeper的概念

什么是zookeeper Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务 zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务） Zookeeper集群的角色： Leader 和 follower （Observer） zookeeper在底层...

2018-07-31 19:54:25 230

原创 HDFS的java api使用

1.2 HDFS控制（Java）hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中，这些api能够支持的操作包含：打开文件，读写文件，删除文件等。FileSystem，该类是个抽象类，只能通过来类的get方法得到具体类。get方法存在几个重载版本，常用的是这个：static FileSystem get(Configuration conf); ...

2018-07-31 19:39:13 461

原创 HDFS的概念

1.1 HDFS的介绍源自于Google的GFS论文发表于2003年10月 HDFS是GFS克隆版，HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统，运行在大量普通廉价机器上，提供容错机制，为大量用户提供性能不错的文件存取服务。1.2 HDFS设计目标自动快速检测应对硬件错误流式访问数据移动计算比...

2018-07-31 19:24:58 937

原创 hadoop分布式集群搭建

一、分布式集群搭建1.HADOOP集群规划2.HADOOP集群安装步骤1.准备三台Centos6.7 64bit虚拟机，虚拟机名分别为：Centos6.7_min1Centos6.7_min2Centos6.7_min3注意三台机器使用root用户登陆系统2.分别修改虚拟机的主机名（hostname）分别在机器中执行修改hostname命令（需要重启）...

2018-07-31 19:12:02 192

原创 Hadoop集群安装，三种

Linux环境设置/*安装Hadoop集群时要确保以下几个方面1.本机与虚拟机之间是否可以通信（Ping）。如果不行检查下面 1.1本机防火墙关闭（开启情况是本机可以ping虚拟机，虚拟机不能ping本机） 1.2虚拟机是克隆的情况（按照Linux文档中，修改ip地址等方法） 1.3虚拟机设置--网卡是否是仅主机模式或者桥接模式：仅主机模式需要检查...

2018-07-31 19:08:05 378

原创 Hadoop是什么？基本概念

1.1 什么是HADOOPApache Hadoop 为可靠的，可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集（海量的数据）。包括这些模块：Hadoop Common：支持其他Hadoop模块的常用工具。Hadoop分布式文件系统（HDFS™）：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。...

2018-07-31 19:01:55 12021

原创大数据没啥

大数据是人工智能、物联网和云计算的中间件

2018-07-03 17:52:43 171

qq_25460227的博客