博客专栏  >  综合   >  大数据专题

大数据专题

大数据操作,环境搭建, mongodb,zookeeper,kafka,hadoop,spark

关注
4 已关注
30篇博文
  • Kafka深度解析

    原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析 背景介绍 Kafka简介   Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: ...

    2018-01-02 10:37
    120
  • Spark性能优化:开发调优篇

    Spark性能优化:开发调优篇 《Spark性能优化:开发调优篇》 《Spark性能优化:资源调优篇》 《Spark性能优化:数据倾斜调优》 《Spark性能优化:shuffle调优》   在大数据计...

    2018-01-19 15:43
    85
  • Spark性能优化:资源调优篇

    Spark性能优化:资源调优篇 原文地址:https://www.iteblog.com/archives/1659.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Sp...

    2018-01-19 16:00
    108
  • Spark性能优化:数据倾斜调优

    Spark性能优化:数据倾斜调优 原文地址:https://www.iteblog.com/archives/1671.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《S...

    2018-01-19 16:19
    152
  • Spark性能优化:shuffle调优

    Spark性能优化:shuffle调优 原文地址:https://www.iteblog.com/archives/1672.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇...

    2018-01-19 16:25
    119
  • Oracle goldengate 实现mysql到kafka同步配置

    一.oracle goldengate技术架构 Oracle GoldenGate 实现原理是通过抽取源端的redo log 或者 archive log ,然后通过TCP/IP投递到目标端,最后解...

    2017-08-18 10:17
    1716
  • spring-sparkstreaming-kafka10集成实现和疑难杂症解决

    一.前期准备 1.开发环境 window7 eclipse jdk1.8 2.linux环境 zookeeper-3.4.8 hadoop-2.6.4 spark-1.6.0 scala-2.10.6...

    2017-07-10 19:54
    2629
  • 资深架构师教你一篇文看懂Hadoop

    作者:陈 飚 “昔我十年前,与君始相识” 一瞬间Hadoop也到了要初中择校的年龄了。十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有...

    2017-06-01 16:23
    2328
  • Apache kafka 工作原理介绍

    消息队列 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行...

    2017-05-24 09:22
    579
  • Spark Streaming+kafka订单实时统计实现

    前几篇文章我们分别学习Spark RDD和PairRDD编程,本文小编将通过简单实例来加深对RDD的理解。 一.前期准备 开发环境:window7+eclipse+jdk1.7 部署环境:linux+...

    2017-06-01 08:50
    4105
  • 完美解决Spark应用日志级别设置

    最近在研究Spark的相关知识,本地搭建了一个开发环境Windows7+Eclipse+JDK1.7。 一. 日志效率原因 开发时,控制台输出一大堆日志信息,严重影响查看日志效率。 从控制台输出日...

    2017-06-01 08:50
    7981
  • linux中sqoop实现hive数据导入到mysql

    上一篇文章我们简单的介绍《http://blog.csdn.net/a123demi/article/details/72742553》,本文将简单介绍如何通过sqoop把hive数据导入到mysql...

    2017-06-01 08:48
    1670
  • linux中hive安装和部署详解

    一.前期准备 1.1 hadoop 版本:Hadoop 2.6.5 安装:http://blog.csdn.net/a123demi/article/details/70652959 1.2 my...

    2017-05-25 19:30
    3808
  • linux中sqoop部署以及实现mysql数据导入hive

    Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ...

    2017-05-25 19:42
    895
  • Spark学习—PairRDD编程

    PairRDD:键值对RDD,其是Spark中转化操作常用的数据类型。上一篇文件《》我们就使用了PairRDD。PairRDD是很多程序的构成要素,因为他提供了并行操作或跨节点重新进行数据分组的操作接...

    2017-05-16 13:29
    1216
  • linux安装flume和集成kafka测试

    一.前期准备 1.1 kafka+zookeeper集群环境以安装 1.2 下载flume 本文使用flume1.7 下载地址:http://flume.apache.org/download.htm...

    2017-05-23 11:31
    1180
  • linux集成 kafka数据通过flume发送到hadoop

    上一篇文章《 linux安装flume和集成kafka测试》,我们介绍了flume安装和集成数据到kafka,本篇文章我们将集成kafka,flume,hadoop,通过flume发送kafka数据到...

    2017-05-23 16:08
    1389
  • Spark学习—统计文件单词出现次数

    上一节我们简单介绍了RDD中转化和执行操作的用法,本节将通过一个具体的示例来加深对RDD的认识。 一.需求 统计本地文件中单词出现次数 二.操作流程 1.读取外部文件创建JavaRDD; 2...

    2017-05-12 11:36
    1610
  • 大数据处理为何选择Spark,而不是Hadoop

    一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和...

    2017-05-04 16:32
    1496
  • Spark学习—RDD编程

    RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据...

    2017-05-09 14:13
    1664

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部