排序:
默认
按更新时间
按访问量

Kafka基础-可靠性数据传输

可靠的数据传输是系统的一个必要属性,就像性能一样,必须从一开始就设计到系统中。Apache Kafka在可靠的数据传输方面非常灵活,支持非常多的配置参数。 1. 可靠性保证 当我们讨论可靠性时,通常会提到保证这个术语。最著名的可靠性保证ACID,它是关系型数据库普遍支持的标准可靠性保证。理解K...

2018-09-17 14:01:50

阅读数:35

评论数:0

Kafka基础-内部原理

理解Kafka的内部原理可以有助于故障的排除,因此本文会着重介绍以下三个部分: Kafka复制的工作原理 Kafka是怎样处理生产者和消费者的请求 Kafka是怎样储存数据,例如文件格式和索引 1. 集群成员 Kafka使用Apache Zookeeper来维护当前集群的成员列表,每个br...

2018-08-21 16:39:25

阅读数:175

评论数:0

Kafka基础-消费者读取消息

下文介绍如何使用Java从Kafka订阅和读取消息,它和从其它消息系统读取消息有点不同,涉及到一些独特的概念。所以我们要先了解这些概念: 1. Kafka消费者概念 1.1 消费者和消费者组 当你只有一个消费者而且生产者发送消息的速率比消费者读取消息的速率要快的时候,处理新消息就会造成延时,...

2018-07-31 14:18:36

阅读数:472

评论数:0

Kafka基础-生产者发送消息

无论你是使用Kafka作为队列,消息总线还是数据存储平台,你都会用到生产者,用于发送数据到Kafka。下文介绍如何使用Java来发送消息到Kafka。1. 发送消息的主要步骤 首先创建ProducerRecord对象,此对象除了包括需要发送的数据value之外还必须指定topic,另外也可以指定...

2018-06-20 15:12:13

阅读数:910

评论数:1

HDFS集群版本升级执行步骤

1 概述本文档用于没有配置高可用的HDFS集群版本升级执行的详细步骤说明,版本由2.7.3升级到2.9.0。2 前提条件假设已有安装配置好整合了Kerberos的HDFS集群和YARN,本文使用5台服务器,角色分别为:hadoop0:NameNode、SecondaryNameNode、Resou...

2018-05-31 15:07:04

阅读数:156

评论数:0

HDFS集群整合Kerberos配置步骤

1 概述本文档用于HDFS整合Kerberos配置的详细步骤说明,版本分别为2.7.3和1.16。2 前提条件假设已有安装配置好的HDFS集群和YARN,本文使用4台服务器,角色分别为:192.168.1.10:NameNode、SecondaryNameNode、ResourceManager1...

2018-05-25 16:44:44

阅读数:323

评论数:0

Spark机器学习之协同过滤算法使用-Java篇

协同过滤是普遍用于推荐系统,这些技术旨在填补用户和项目关联矩阵里面缺少的值。Spark目前实现基于模型的协同过滤,其中模型的用户和项目由一组小的潜在因素所描述,可用于预测缺少的值。Spark使用交替最小二乘法alternating least squares(ALS)算法来学习这些潜在因素。 1...

2017-08-30 17:38:14

阅读数:1621

评论数:0

org.apache.spark.shuffle.FetchFailedException:Failed to connect to异常

最近在做Spark的性能优化,测试使用不同CPU核数和内存对计算性能的影响,由于是在测试集群进行测试的,硬件配置比生产上面的要少和低,遇到了不少的问题,其中一个值得说一下的就是org.apache.spark.shuffle.FetchFailedException:Failed to conne...

2017-08-01 00:41:17

阅读数:3295

评论数:0

官方HDFS架构设计原理说明(下)

玩了HDFS已经有好多年了,之前一直都是边学边用,直到现在才真正有时间记录一下学到的知识O(∩_∩)O 6. 文件系统元数据的持久化 HDFS的命名空间是由命名节点NameNode来存储的。NameNode使用了一个叫EditLog的事务日志来持续记录文件系统元数据的每一次更改,例如在...

2017-06-07 14:48:42

阅读数:765

评论数:0

官方HDFS架构设计原理说明(上)

玩了HDFS已经有好多年了,之前一直都是边学边用,直到现在才真正有时间记录一下学到的知识O(∩_∩)O 1. 引言 HDFS全称是Hadoop Distributed File System,Hadoop分布式文件系统,顾名思义它是一个分布式的文件系统,设计于运行在普通硬件之上。它和现在的分布...

2017-05-08 09:58:36

阅读数:3159

评论数:0

当对象包含嵌套对象时,使用Spark SQL执行sql查询抛出scala.MatchError异常

1. 运行环境 本文使用Spark SQL 2.1.0版本 2. 使用代码 例如有个对象,除了包含简单的基本数据String,int之外还包含一个Location对象,就是所说的嵌套对象: import java.io.Serializable; public class...

2017-04-13 09:44:49

阅读数:3691

评论数:0

执行stop-dfs.sh后无法停止namenodes、datanodes和secondary namenodes

1. 环境 本文使用Hadoop 2.7.3版本 2. 错误信息 执行stop-dfs.sh后显示以下信息: Stopping namenodes on [master] master: no namenode to stop slave1: no datanode to ...

2017-04-07 11:23:57

阅读数:1392

评论数:0

SparkSQL编程指南之Java篇三-数据源(下)

4. Hive Tables Spark SQL支持对Hive的读写操作。然而因为Hive有很多依赖包,所以这些依赖包没有包含在默认的Spark包里面。如果Hive依赖的包能在classpath找到,Spark将会自动加载它们。需要注意的是,这些Hive依赖包必须复制到所有的工作节点上,因为...

2017-03-10 14:09:35

阅读数:4466

评论数:5

SparkSQL编程指南之Java篇二-数据源(上)

Spark SQL通过DataFrame接口支持各种不同数据源的操作。一个DataFrame可以进行相关的转换操作,也可以用于创建临时视图。注册DataFrame为一个临时视图可以允许你对其数据执行SQL查询。本文首先会介绍使用Spark数据源加载和保存数据的一般方法,然后对内置数据源进行详细介绍...

2017-03-10 11:11:41

阅读数:1596

评论数:0

SparkSQL编程指南之Java篇一-入门

1. Spark SQL的Java开发包 Spark SQL提供Java的开发包,当前最新版本是2.1.0版本:spark-sql_2.11-2.1.0.jar,可以从下面链接下载: http://central.maven.org/maven2/org/apache/spark/spark-...

2017-02-16 14:24:29

阅读数:10674

评论数:0

Spark集群安装配置步骤

本文使用3台测试服务器,下面是各服务器的角色: - node1:Worker - node2:Worker - node3:Master, Worker 1. 配置hosts文件 本文使用RedHat是在 /etc/hosts,新增3台测试服务器的ip/hostname对应关...

2017-02-10 13:48:23

阅读数:3184

评论数:0

Hadoop分布式集群安装配置步骤

之前介绍过Hadoop伪分布式模式的安装配置步骤,现在记录一下分布式集群的安装配置步骤,本文使用3台测试服务器,下面是各服务器的角色:   - node1:NameNode, SecondaryNameNode, DataNode, NodeManager - node2:DataNode, No...

2017-02-07 16:35:10

阅读数:1323

评论数:0

java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read

环境: - Spark 2.11-2.0.2 - Hadoop 2.6.5 使用Spark连接HDFS,在高并发的时候,偶尔会遇到以下异常: 2017-01-26 10:30:29,079 ERROR org.apache.hadoop.hdfs.server.datanode.DataNo...

2017-02-04 10:04:07

阅读数:8186

评论数:0

Spark编程指南入门之Java篇七-共享变量

11. 共享变量 通常情况下,当一个传递给Spark操作的函数(例如map或者reduce)在远程集群节点执行时,函数使用的所有变量都是原变量的副本。这些变量被复制到集群的每一台服务器,在各个远程服务器更新的变量是不会更新回驱动节点程序的。不同任务读写共享变量的效率是比较低的,然而,Spark提...

2017-01-20 09:33:49

阅读数:1209

评论数:0

java.lang.NoSuchMethodError: org.apache.hadoop.fs.FSOutputSummer.<init>(Ljava/util/zip/Checksum;II)V

环境: - Spark 2.11-2.0.2版本(在Eclipse下面使用Maven引入spark-core_2.11-2.0.2.jar) - Hadoop 2.6.5版本 使用Spark的Java APIs(saveAsTextFile方法)把大量的日志导入远程的HDFS,遇到下面的j...

2017-01-16 15:56:01

阅读数:1048

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭