自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 kafka 整合 spark streaming 实例

1,启动zk集群(如何搭建不解释,之前文章有详解)在每台机器上执行启动命令:bin/kafka-server-start.sh config/server.properties2,创建kafka的 topic话题(如何搭建kafka不解释,之前文章有详解)bin/kafka-topics.sh --create --zookeeper 192.168.2.201:2181 --r...

2018-07-31 17:23:59 418

原创 spark streaming整合flume(常用的poll类型)

在实际生产工作环境中,spark streaming经常和flume或者kafka整合在一起使用,本片文章说下与flume整合过程。常用的整合方式有两种,一种是push类型,一种是poll类型,在实际分布式生产环境下,我们使用poll类型,也就是由spark streaming向flume拿数据,push类型是flume向streaming 送数据。我们这里只说下poll类型的整合方式。1...

2018-07-30 15:28:26 793 1

原创 spark Streaming介绍及实例编写

1,引用一段官网介绍spark Streaming是Spark core API的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点。数据可以从许多来源获取,如Kafka,Flume,Kinesis或TCP sockets,并且可以使用复杂的算法进行处理,这些算法使用诸如map,reduce,join和window等高级函数表示。最后,处理后的数据可以推送到文件系统,数据库...

2018-07-30 12:35:54 1277

原创 hive 整合spark sql在集群中使用

介绍写如何将hive整合到sparkSql中使用,因为公司一些老hadoop框架中的hive一直保留着,但spark框架也要使用hive怎么办呐,很简单,配置文件搞一下就可以了。(注意hive和spark的版本是有对应关系的,去官网查下,下载对应的hive和spark,否则启动会报错。1,配置文件在spark的conf目录中添加hdfs-site.xml 和 hive-site.xml...

2018-07-25 20:40:03 1151

原创 Spark SQL 入门精简概念

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。1, 为什么要学习Spark SQL我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运...

2018-07-25 09:28:24 281

原创 使用scala编写一个简单实例到spark集群运行

实际工作上很少在虚拟机上直接使用spark-shell去编写程序,更多的是在IDEA等编辑器上将写好的程序打包,使用spark-submit提交到集群上去执行。我们使用scala去编写程序,不会的自己百度学下,不解释。1,安装jdk 因为scala也是运行在jvm上的,所以需要安装jdk。(jdk安装方法不解释,自己百度,建议安装1.7以上版本)2,安装scala笔者安装的...

2018-07-18 11:14:03 7669

原创 spark中RDD算子介绍

1. spark简介Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。2. RDD简介RDD(Resilient Distributed D...

2018-07-16 20:16:04 3635

原创 搭建以hdfs为文件存储库的spark集群

1,搭建启动hadoop HA集群,之前文章有详细的搭建过程。启动HDFS(在weekend01上执行)sbin/start-dfs.sh找一个文件上传到自定义hdfs目录下面启动spark shell 交互命令行(在weekend02 启动)bin/spark-shell --master spark://weekend02:7077 --executor-memory ...

2018-07-16 18:45:16 3257

原创 搭建高可用spark HA集群

实际生产中会搭建spark ha集群,本地测试的话整个单机的就行了。这里我们先介绍下单机如何配置,然后再在他基础上搭建高可用HA集群。单机版配置 : master=weekend01 , works = weekend03,weekend04,weekend051,下载安装/spark-x.x.x-bin-hadoopx.x jar包到weekend01上。(不解释,自己弄一个)2,...

2018-07-16 15:08:20 7316

原创 Flume 整合 kafka实例讲解

1,前置条件:(这些清参考之前文章) 1,安装好zk集群,安装好kafka集群 (准备三台weekend01,weekend02,weekend03) 2,安装好Flume2、创建flume配置文件cd /usr/app/apache-flume-1.6.0-bin/confmkdir myconfvi exec.conf输入以下内容: a1.sources = r1a1.chan...

2018-07-10 21:34:54 3294

原创 kafka整合strom代码实例讲解

strom整合kafka关键就是以strom中的spout当作kafka的消费者来接收生产者传入的数据。画一个简单的图:好了,接下来我们直接上代码!1,先写一个main方法,作为消费者来接受生产者数据。package cn.itcast.storm.topology;import storm.kafka.BrokerHosts;import storm.kafka.KafkaSpout;i...

2018-07-10 15:07:41 5811

原创 Java客户端编程 kafka生产与消费者

1, 先写下生产者java代码运行之,然后在虚拟机上启动一个topic,紧接着用在虚拟机上写一个消费者去拿数据。生产者java代码 :package cn.itcast.kafka;import java.util.Properties;import kafka.producer.KeyedMessage;import kafka.producer.Producer;import kaf...

2018-07-10 13:45:35 2964

原创 工作流调度器 azkaban

为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:1、 通过Hadoop先将...

2018-07-10 10:24:03 2961

原创 日志采集框架Flume 与 数据迁移sqoop

1, Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景2...

2018-07-09 21:28:40 4931

原创 kafka简介,集群部署

1、Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时...

2018-07-09 21:10:11 3145 1

LOL 英雄联盟壁纸全套全英雄高清壁纸下载

LOL 英雄联盟壁纸全套全英雄高清壁纸下载

2020-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除