if(true){ I love it }

留下积累的每一份知识

Spark性能优化:shuffle调优

Spark性能优化:shuffle调优 原文地址:https://www.iteblog.com/archives/1672.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》文章目录1 shu...

2018-01-19 16:25:00

阅读数 836

评论数 0

Spark性能优化:数据倾斜调优

Spark性能优化:数据倾斜调优 原文地址:https://www.iteblog.com/archives/1671.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》文章目录1 前言2 数据...

2018-01-19 16:19:04

阅读数 489

评论数 0

Spark性能优化:资源调优篇

Spark性能优化:资源调优篇 原文地址:https://www.iteblog.com/archives/1659.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》  在开发完Spark作业...

2018-01-19 16:00:44

阅读数 722

评论数 0

Spark性能优化:开发调优篇

Spark性能优化:开发调优篇 《Spark性能优化:开发调优篇》 《Spark性能优化:资源调优篇》 《Spark性能优化:数据倾斜调优》 《Spark性能优化:shuffle调优》   在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领...

2018-01-19 15:43:24

阅读数 598

评论数 0

Kafka深度解析

原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析 背景介绍 Kafka简介   Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能 ...

2018-01-02 10:37:45

阅读数 273

评论数 0

Oracle goldengate 实现mysql到kafka同步配置

一.oracle goldengate技术架构 Oracle GoldenGate 实现原理是通过抽取源端的redo log 或者 archive log ,然后通过TCP/IP投递到目标端,最后解析还原应用到目标端,使目标端实现 同源端数据同步。图1-1 是Oracle GoldenGate ...

2017-08-18 10:17:57

阅读数 3108

评论数 2

spring-sparkstreaming-kafka10集成实现和疑难杂症解决

一.前期准备 1.开发环境 window7 eclipse jdk1.8 2.linux环境 zookeeper-3.4.8 hadoop-2.6.4 spark-1.6.0 scala-2.10.6 kafka_2.10-0.10.1.0 各环境的安装和部署请自行准备。 二.疑难杂症 1. sp...

2017-07-10 19:54:30

阅读数 6002

评论数 12

资深架构师教你一篇文看懂Hadoop

作者:陈 飚 “昔我十年前,与君始相识” 一瞬间Hadoop也到了要初中择校的年龄了。十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。 2006年项目成立的一开始,“Hadoop”这个单词...

2017-06-01 16:23:41

阅读数 3716

评论数 0

Spark Streaming+kafka订单实时统计实现

前几篇文章我们分别学习Spark RDD和PairRDD编程,本文小编将通过简单实例来加深对RDD的理解。 一.前期准备 开发环境:window7+eclipse+jdk1.7 部署环境:linux+zookeeper+kafka+hadoop+spark 本实例开发之前,默认已搭好了开发环境和部...

2017-06-01 08:50:29

阅读数 9190

评论数 3

完美解决Spark应用日志级别设置

最近在研究Spark的相关知识,本地搭建了一个开发环境Windows7+Eclipse+JDK1.7。 一. 日志效率原因 开发时,控制台输出一大堆日志信息,严重影响查看日志效率。 从控制台输出日志我们可以看出,应用程序是默认加载Spark-core包下面的log4j-defaults.pro...

2017-06-01 08:50:10

阅读数 26364

评论数 2

linux中sqoop实现hive数据导入到mysql

上一篇文章我们简单的介绍《http://blog.csdn.net/a123demi/article/details/72742553》,本文将简单介绍如何通过sqoop把hive数据导入到mysql。 一. 前期准备 实践本文内容,默认您已经安装和部署了hadoop,mysql,hive,sq...

2017-06-01 08:48:21

阅读数 7377

评论数 0

linux中sqoop部署以及实现mysql数据导入hive

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数...

2017-05-25 19:42:48

阅读数 1655

评论数 0

linux中hive安装和部署详解

一.前期准备 1.1 hadoop 版本:Hadoop 2.6.5 安装:http://blog.csdn.net/a123demi/article/details/70652959 1.2 mysql 版本:5.6.33 MySQL Community Server (GPL) 1.3 m...

2017-05-25 19:30:49

阅读数 12869

评论数 1

Apache kafka 工作原理介绍

消息队列 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下...

2017-05-24 09:22:42

阅读数 661

评论数 0

linux集成 kafka数据通过flume发送到hadoop

上一篇文章《 linux安装flume和集成kafka测试》,我们介绍了flume安装和集成数据到kafka,本篇文章我们将集成kafka,flume,hadoop,通过flume发送kafka数据到hadoop的hdfs文件。 一.前期准备 1.1 hadoop安装 版本:Hadoop 2....

2017-05-23 16:08:23

阅读数 3117

评论数 0

linux安装flume和集成kafka测试

一.前期准备 1.1 kafka+zookeeper集群环境以安装 1.2 下载flume 本文使用flume1.7 下载地址:http://flume.apache.org/download.html 二.配置flume 2.1 上传flume #上传下载包至/opt/software cd /...

2017-05-23 11:31:55

阅读数 3353

评论数 1

Spark学习—PairRDD编程

PairRDD:键值对RDD,其是Spark中转化操作常用的数据类型。上一篇文件《》我们就使用了PairRDD。PairRDD是很多程序的构成要素,因为他提供了并行操作或跨节点重新进行数据分组的操作接口。本文将结合Java示例讲解PairRDD相关接口操作。 PairRDD创建 很多存储键值对...

2017-05-16 13:29:22

阅读数 2219

评论数 0

Spark学习—统计文件单词出现次数

上一节我们简单介绍了RDD中转化和执行操作的用法,本节将通过一个具体的示例来加深对RDD的认识。 一.需求 统计本地文件中单词出现次数 二.操作流程 1.读取外部文件创建JavaRDD; 2.通过flatMap转化操作切分字符串,获取单词新JavaRDD; 3.通过mapToPair,...

2017-05-12 11:36:26

阅读数 2994

评论数 2

Spark学习—RDD编程

RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据分发到集群,并将操作并行化执行。 Spark中的RDD是一个不可变的分布式对象集合。每个RDD...

2017-05-09 14:13:41

阅读数 3081

评论数 0

大数据处理为何选择Spark,而不是Hadoop

一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运...

2017-05-04 16:32:11

阅读数 5875

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭