大数据
文章平均质量分 86
IT狗探求
积累每一份知识,完善每一件事
展开
-
linux ssh免密码登录详解
一.ssh免密码登陆需求 在我们处理集群或分布式系统时,经常会涉及到多个linux系统服务器。而在多个服务器间通信或资源共享时,如scp命令文件拷贝,需要录入密码校验,使操作过于繁琐,当密码精度过高时,整个操作也方便。 那如何处理多个系统间免密码登陆? 1. 各服务器系统不设置密码,但此安全性不能保证,不推荐。 2.通过ssh实现免密码登陆。二.ssh免密码登陆原理 在客户端服务器通过ssh-gen命令生成一个公钥原创 2017-04-15 23:25:13 · 6010 阅读 · 0 评论 -
Java + Spark SQL + Hive + Maven简单实现和异常问题
一. 前期准备1.linux搭建Java和Scala环境搭建2. linux搭建hadoop+spark+hive分布式集群hadoop分布式集群搭建:hadoop分布式集群搭建spark分布式集群搭建:spark分布式集群搭建hive分布式集群搭建:待完善二.项目代码实现1 需求通过Spark Sql 查询Hive数据库数据数据库:bi_ods;表:owms_m_locator2 maven 项目搭建新增一个Mave project工程maven pr原创 2017-04-25 20:17:43 · 11227 阅读 · 1 评论 -
Spark学习—RDD编程
RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据分发到集群,并将操作并行化执行。 Spark中的RDD是一个不可变的分布式对象集合。每个RDD都倍分为多个分区,这些分区运行在集群中的不同节点。RDD可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义对象,本文主要通过Java实现相关示例。 Spark程序或shell会话原创 2017-05-09 14:13:41 · 4835 阅读 · 0 评论 -
linux中sqoop实现hive数据导入到mysql
上一篇文章我们简单的介绍《http://blog.csdn.net/a123demi/article/details/72742553》,本文将简单介绍如何通过sqoop把hive数据导入到mysql。一. 前期准备实践本文内容,默认您已经安装和部署了hadoop,mysql,hive,sqoop等环境。如相关安装和部署有问题,可以参考《http://blog.csdn.net/a123demi/article/details/72742553》。二. sqoop实现hdfs文件导出2.1 hi原创 2017-06-01 08:48:21 · 10313 阅读 · 0 评论 -
完美解决Spark应用日志级别设置
最近在研究Spark的相关知识,本地搭建了一个开发环境Windows7+Eclipse+JDK1.7。一. 日志效率原因开发时,控制台输出一大堆日志信息,严重影响查看日志效率。从控制台输出日志我们可以看出,应用程序是默认加载Spark-core包下面的log4j-defaults.properties日志文件。查看log4j-defaults.properties文件由上图可知,Spark-core包设置默认的日志级别为info,所以我们才看到一大堆日志信i息。那针对以上问题,在开发过程中我原创 2017-06-01 08:50:10 · 41502 阅读 · 4 评论 -
Spark Streaming+kafka订单实时统计实现
前几篇文章我们分别学习Spark RDD和PairRDD编程,本文小编将通过简单实例来加深对RDD的理解。一.前期准备开发环境:window7+eclipse+jdk1.7部署环境:linux+zookeeper+kafka+hadoop+spark本实例开发之前,默认已搭好了开发环境和部署环境,如果未搭建,可以参考本人相关大数据开发搭建博客。二.概念理解Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据原创 2017-06-01 08:50:29 · 12021 阅读 · 3 评论 -
资深架构师教你一篇文看懂Hadoop
作者:陈 飚“昔我十年前,与君始相识”一瞬间Hadoop也到了要初中择校的年龄了。十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(即Core Hadoop项目)以及与之相关的一个不断成长的生态系统。这个和Linux非常类似,都是由一个核心和一个生态转载 2017-06-01 16:23:41 · 4754 阅读 · 0 评论 -
spring-sparkstreaming-kafka10集成实现和疑难杂症解决
一.前期准备1.开发环境window7eclipsejdk1.82.linux环境zookeeper-3.4.8hadoop-2.6.4spark-1.6.0scala-2.10.6kafka_2.10-0.10.1.0各环境的安装和部署请自行准备。二.疑难杂症1. spark+scala+kafka版本要一致2. org.apache.sp原创 2017-07-10 19:54:30 · 7587 阅读 · 12 评论 -
Oracle goldengate 实现mysql到kafka同步配置
一.oracle goldengate技术架构Oracle GoldenGate 实现原理是通过抽取源端的redo log 或者 archive log ,然后通过TCP/IP投递到目标端,最后解析还原应用到目标端,使目标端实现 同源端数据同步。图1-1 是Oracle GoldenGate 的技术架构。其中target接受的容器包含:kafka,hbase,hdfs,关系数据库等.二. 准备在实现oracle goldengate 同步配置前,小求认为你已安装了一下环境1. jdk配置原创 2017-08-18 10:17:57 · 5028 阅读 · 2 评论 -
Kafka深度解析
原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息顺序传输同时支持离线数据处理和实时数据处转载 2018-01-02 10:37:45 · 507 阅读 · 0 评论 -
Spark性能优化:开发调优篇
Spark性能优化:开发调优篇《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。 然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进转载 2018-01-19 15:43:24 · 803 阅读 · 0 评论 -
Spark性能优化:资源调优篇
Spark性能优化:资源调优篇 原文地址:https://www.iteblog.com/archives/1659.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为转载 2018-01-19 16:00:44 · 943 阅读 · 0 评论 -
Spark性能优化:shuffle调优
Spark性能优化:shuffle调优 原文地址:https://www.iteblog.com/archives/1672.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》文章目录1 shuffle调优1.1 调优概述1.2 ShuffleManager发展概述1.3 HashShuffle转载 2018-01-19 16:25:00 · 1838 阅读 · 0 评论 -
Spark学习—PairRDD编程
PairRDD:键值对RDD,其是Spark中转化操作常用的数据类型。上一篇文件《》我们就使用了PairRDD。PairRDD是很多程序的构成要素,因为他提供了并行操作或跨节点重新进行数据分组的操作接口。本文将结合Java示例讲解PairRDD相关接口操作。PairRDD创建 很多存储键值对的数据格式会在读取时直接返回其键值对数据组成的pair RDD,同时也可以调用map()函数来实现,传递的函数需要返回键值对。 对应Java创建PairRDD,由于Java没有自带的二元组类型,因此Spark的J原创 2017-05-16 13:29:22 · 2967 阅读 · 0 评论 -
linux mongodb安装和配置启动图文详解
一.前期准备1.Win7环境下 官网下载Mongodb包本文使用mongodb-linux-x86_64-3.2.12.tgz2.上传mongodb包至linux服务器具体放置到目录:/opt/software二.mongodb安装和配置1.解压和复制mongodb至目录 /usr/local/mongodbcd /opt/softwaretar -zxvf mongodb-linux-x86_64-3.2.12.tgzcp -r mongodb-linux-x86_64-3原创 2017-04-19 12:23:58 · 23601 阅读 · 0 评论 -
linux zookeeper3.4.9集群搭建图文详解
一.前期准备1.1 Win7官网下载zookeeper包本文使用版本zookeeper-3.4.9.tar.gz1.2 配置jdk1.3 centos7集群服务器主机名 系统 IP地址master centos7 192.168.32.128slave01 centos7 192.168.32.131slave02 centos7 192.168.32.132二.zookeeper集群搭建以下操作只针对master主原创 2017-04-20 16:21:36 · 2516 阅读 · 0 评论 -
linux scala安装与配置详解
一.配置前准备1.scala运行在jvm虚拟机,需要配置jdk,具体见linux jdk1.8环境配置;2.官网下载scala,本文使用scala-2.11.8二.scala安装和配置1.定位到 /opt/software目录,如果不存在,新增目录mkdir -p /opt/software2.上传scala包到 /opt/software目录3.解压tar -zxvf scala-2.11.8.tgz4.复制解压包到 /usr/local/scala目录cp -r原创 2017-04-17 18:30:46 · 7282 阅读 · 1 评论 -
linux jdk1.8环境配置
环境:Win7,VMware Workstation Pro,Centos7需求:centos7安装jdk1.81.Win7下载jdk1.8Win7系统下载jdk-8u121-linux-x64.gz地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.上传到Linux中的/opt/software进入目录:cd /opt/software注:如果softw原创 2017-04-14 18:19:10 · 7696 阅读 · 0 评论 -
eclipse集成hadoop+spark+hive本地开发图文详解
上一篇文章我们实现了Java+Spark+Hive+Maven实现和异常处理,但当运行直接在Windows系统运行时,会有Hive相关异常的输出,本文将帮助您如何在Windows系统上集成Hadoop+Spark+Hive开发环境。一.开发环境系统:windows 7JDK:jdk1.7eclipse:Mars.2 Release (4.5.2)Hadoop:hadoop-2.6.5Spark:spark-1.6.2-bin-hadoop2.6Hive:hive-2.1.1二原创 2017-05-02 16:38:06 · 6420 阅读 · 3 评论 -
linux安装flume和集成kafka测试
一.前期准备1.1 kafka+zookeeper集群环境以安装1.2 下载flume本文使用flume1.7下载地址:http://flume.apache.org/download.html二.配置flume2.1 上传flume#上传下载包至/opt/softwarecd /opt/softwarerz apache-flume-1.7.0-bin.tar.gz#解压tar -zxvf apache-flume-1.7.0-bin.tar.gz#复制apache-flume-1原创 2017-05-23 11:31:55 · 4396 阅读 · 1 评论 -
Spark学习—统计文件单词出现次数
上一节我们简单介绍了RDD中转化和执行操作的用法,本节将通过一个具体的示例来加深对RDD的认识。一.需求统计本地文件中单词出现次数二.操作流程1.读取外部文件创建JavaRDD;2.通过flatMap转化操作切分字符串,获取单词新JavaRDD;3.通过mapToPair,以key为单词,value统一为1的键值JavaPairRDD;4.通过reduceByKey,累计叠加每个key,统计单词出现次数;三.代码实现四.下载代码代码地址:http://downlo原创 2017-05-12 11:36:26 · 7642 阅读 · 2 评论 -
linux集成 kafka数据通过flume发送到hadoop
上一篇文章《 linux安装flume和集成kafka测试》,我们介绍了flume安装和集成数据到kafka,本篇文章我们将集成kafka,flume,hadoop,通过flume发送kafka数据到hadoop的hdfs文件。一.前期准备1.1 hadoop安装版本:Hadoop 2.6.5安装: linux hadoop完全分布式集群搭建图文详解1.2 zookeeper安装版本:zookeeper-3.4.9安装: linux zookeeper3.4.9集群搭建图文详解1.3原创 2017-05-23 16:08:23 · 4062 阅读 · 0 评论 -
大数据处理为何选择Spark,而不是Hadoop
一.基础知识1.SparkSpark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。Spark的各个组件2.HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布原创 2017-05-04 16:32:11 · 6529 阅读 · 0 评论 -
Apache kafka 工作原理介绍
消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提供公共的信息交换机制是重要的。常用的消息队列技术是 Message Queue。Message Queue 的通讯模式点对点通讯:点对点方式是最为转载 2017-05-24 09:22:42 · 792 阅读 · 0 评论 -
linux hadoop完全分布式集群搭建图文详解
一.前期准备1.1 Win7官网下载hadoop包本文使用版本hadoop-2.6.5.tar.gz1.2 配置jdkjdk1.7:linux jdk安装和配置1.3 centos7集群服务器主机名 系统 IP地址master centos7 192.168.32.128slave01 centos7 192.168.32.131slave02 centos7 192.168.32.1321.4 多服务器ssh免密码原创 2017-04-24 19:35:09 · 13603 阅读 · 3 评论 -
linux spark分布式集群搭建图文详解
一.前期准备1.1 Win7官网下载spark包本文使用版本spark-1.6.2-bin-hadoop2.6.tgz1.2 配置jdkjdk1.7:linux jdk安装和配置scala2.10.6:linux scala安装和配置hadoop-2.6.5:hadoop分布式集群搭建1.3 centos7集群服务器主机名 系统 IP地址master centos7 192.168.32.128slave01 centos7原创 2017-04-24 19:45:33 · 1837 阅读 · 1 评论 -
linux中sqoop部署以及实现mysql数据导入hive
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。下原创 2017-05-25 19:42:48 · 2443 阅读 · 0 评论 -
linux中hive安装和部署详解
一.前期准备1.1 hadoop版本:Hadoop 2.6.5安装:http://blog.csdn.net/a123demi/article/details/706529591.2 mysql版本:5.6.33 MySQL Community Server (GPL)1.3 mysql驱动包版本:mysql-connector-java-5.1.40-bin.jar1.4 hive安装包官网下载:apache-hive-2.1.1-bin.tar.gz二.hive安装2原创 2017-05-25 19:30:49 · 21391 阅读 · 2 评论 -
linux kafka集群配置和测试图文详解
一.前期准备1.1 Win7官网下载kafka包本文使用版本kafka_2.10-0.10.1.0.tgz1.2 配置jdk、scala、zookeeperjdk1.7:linux jdk安装和配置scala2.10.6:linux scala安装和配置zookeeper3.49:zookeeper3.49集群安装和配置jdk,scala,kafka版本要对应1.3 centos7集群服务器主机名 系统 IP地址master centos原创 2017-04-20 17:55:53 · 7292 阅读 · 1 评论 -
Spark性能优化:数据倾斜调优
Spark性能优化:数据倾斜调优 原文地址:https://www.iteblog.com/archives/1671.html《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》文章目录1 前言2 数据倾斜调优2.1 调优概述2.2 数据倾斜发生时的现象2.3 数据倾斜发生的原理2.4 如何定位导致数据转载 2018-01-19 16:19:04 · 767 阅读 · 0 评论