博客专栏  >  综合   >  大数据专题

大数据专题

大数据操作,环境搭建, mongodb,zookeeper,kafka,hadoop,spark

关注
2 已关注
25篇博文
  • Oracle goldengate 实现mysql到kafka同步配置

    一.oracle goldengate技术架构 Oracle GoldenGate 实现原理是通过抽取源端的redo log 或者 archive log ,然后通过TCP/IP投递到目标端,最后解...

    2017-08-18 10:17
    434
  • spring-sparkstreaming-kafka10集成实现和疑难杂症解决

    一.前期准备 1.开发环境 window7 eclipse jdk1.8 2.linux环境 zookeeper-3.4.8 hadoop-2.6.4 spark-1.6.0 scala-2.10.6...

    2017-07-10 19:54
    607
  • 资深架构师教你一篇文看懂Hadoop

    作者:陈 飚 “昔我十年前,与君始相识” 一瞬间Hadoop也到了要初中择校的年龄了。十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有...

    2017-06-01 16:23
    619
  • Apache kafka 工作原理介绍

    消息队列 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行...

    2017-05-24 09:22
    330
  • Spark Streaming+kafka订单实时统计实现

    前几篇文章我们分别学习Spark RDD和PairRDD编程,本文小编将通过简单实例来加深对RDD的理解。 一.前期准备 开发环境:window7+eclipse+jdk1.7 部署环境:linux+...

    2017-06-01 08:50
    1162
  • 完美解决Spark应用日志级别设置

    最近在研究Spark的相关知识,本地搭建了一个开发环境Windows7+Eclipse+JDK1.7。 一. 日志效率原因 开发时,控制台输出一大堆日志信息,严重影响查看日志效率。 从控制台输出日...

    2017-06-01 08:50
    1407
  • linux中sqoop实现hive数据导入到mysql

    上一篇文章我们简单的介绍《http://blog.csdn.net/a123demi/article/details/72742553》,本文将简单介绍如何通过sqoop把hive数据导入到mysql...

    2017-06-01 08:48
    401
  • linux中hive安装和部署详解

    一.前期准备 1.1 hadoop 版本:Hadoop 2.6.5 安装:http://blog.csdn.net/a123demi/article/details/70652959 1.2 my...

    2017-05-25 19:30
    832
  • linux中sqoop部署以及实现mysql数据导入hive

    Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ...

    2017-05-25 19:42
    499
  • Spark学习—PairRDD编程

    PairRDD:键值对RDD,其是Spark中转化操作常用的数据类型。上一篇文件《》我们就使用了PairRDD。PairRDD是很多程序的构成要素,因为他提供了并行操作或跨节点重新进行数据分组的操作接...

    2017-05-16 13:29
    825
  • linux安装flume和集成kafka测试

    一.前期准备 1.1 kafka+zookeeper集群环境以安装 1.2 下载flume 本文使用flume1.7 下载地址:http://flume.apache.org/download.htm...

    2017-05-23 11:31
    380
  • linux集成 kafka数据通过flume发送到hadoop

    上一篇文章《 linux安装flume和集成kafka测试》,我们介绍了flume安装和集成数据到kafka,本篇文章我们将集成kafka,flume,hadoop,通过flume发送kafka数据到...

    2017-05-23 16:08
    386
  • Spark学习—统计文件单词出现次数

    上一节我们简单介绍了RDD中转化和执行操作的用法,本节将通过一个具体的示例来加深对RDD的认识。 一.需求 统计本地文件中单词出现次数 二.操作流程 1.读取外部文件创建JavaRDD; 2...

    2017-05-12 11:36
    650
  • 大数据处理为何选择Spark,而不是Hadoop

    一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和...

    2017-05-04 16:32
    247
  • Spark学习—RDD编程

    RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据...

    2017-05-09 14:13
    437
  • eclipse集成hadoop+spark+hive本地开发图文详解

    上一篇文章我们实现了Java+Spark+Hive+Maven实现和异常处理,但当运行直接在Windows系统运行时,会有Hive相关异常的输出,本文将帮助您如何在Windows系统上集成Hadoop...

    2017-05-02 16:38
    1557
  • Java + Spark SQL + Hive + Maven简单实现和异常问题

    一. 前期准备 1.linux搭建Java和Scala环境搭建 2. linux搭建hadoop+spark+hive分布式集群 hadoop分布式集群搭建:hadoop分布式集群搭建 spa...

    2017-04-25 20:17
    1029
  • linux hadoop完全分布式集群搭建图文详解

    一.前期准备 1.1 Win7官网下载hadoop包 本文使用版本hadoop-2.6.5.tar.gz 1.2 配置jdk jdk1.7:linux jdk安装和配置 1.3 centos...

    2017-04-24 19:35
    651
  • linux spark分布式集群搭建图文详解

    一.前期准备 1.1 Win7官网下载spark包 本文使用版本spark-1.6.2-bin-hadoop2.6.tgz 1.2 配置jdk jdk1.7:linux jdk安装和配置 s...

    2017-04-24 19:45
    382
  • linux kafka集群配置和测试图文详解

    一.前期准备 1.1 Win7官网下载kafka包 本文使用版本kafka_2.10-0.10.1.0.tgz 1.2 配置jdk、scala、zookeeper jdk1.7:linux j...

    2017-04-20 17:55
    473

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部