自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

翻译 sparkStreaming:实时流数据详解

概述spark Streaming是对核心Spark API的一个扩展,用来实现对实时流数据的处理,并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,例如:Kafka、Flume、Kinesis,或者是TCP套接子。同时也能提供一些高级API来表达复杂的算法,如map、reduce、join以及window等。再处理完数据后,Spark Streming还可以将处理完的数据推送到文件系统、数据库或者实时仪表盘上,用来做具体的展示。Spark Stream

2020-12-25 01:01:40 2205 1

原创 sparkStreaming:实时流代码案例(实现Wordcount)

依赖包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <!-- https://mvnrepository.com/artifact/org.ap

2020-12-22 21:02:36 863

原创 sparkStream

依赖包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <dependency> <groupId>org.apach

2020-12-19 09:44:45 111 1

原创 用Java读写Hbase,无法运行,显示连接的其他主机

在用java创建hbase表时,无法创建成功,查看日志文件,显示的是一直在尝试连接另外一台机器:(运行的主机是192.168.136.20)这是因为windows没有安装hbase,没有其运行所需要的环境,需要自己修改修改配置,在该目录下修改文件:C:\Windows\System32\drivers\etc\hosts0.0.0.0 flash.cn0.0.0.0 www.flash.cn0.0.0.0 geo2.adobe.com192.168.136.10 hadoop01我这里原

2020-12-18 10:34:16 149

转载 Spark Shuffle相关参数优化

原文连接Spark2.x优化:Shuffle相关参数优化一、前言大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。二、相关参数及优化建议1.spark.shuffle.file.buffer默认值:32KB参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲区中,待缓冲区写满之后,才会溢写到磁盘。

2020-12-11 15:08:42 687

原创 kafka安装(单机)及基本命令

目录安装调试基本语法安装调试1、安装包下载:https://pan.baidu.com/s/1il4pKzJHIOU3wG1BBotmlw 提取码:cd7b2、解压到虚拟机中指定位置tar -zxvf kafka_2.11-2.0.0.tgz -C /opt/3、根据自己需要修改下文件名mv kafka_2.11-2.0.0/ kafka4、配置环境变量#进入profilevi /etc/profile#配置环境export KAFKA_HOME=/opt/kafkaexpo

2020-12-02 19:03:05 739

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除