- 博客(6)
- 收藏
- 关注
翻译 sparkStreaming:实时流数据详解
概述spark Streaming是对核心Spark API的一个扩展,用来实现对实时流数据的处理,并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,例如:Kafka、Flume、Kinesis,或者是TCP套接子。同时也能提供一些高级API来表达复杂的算法,如map、reduce、join以及window等。再处理完数据后,Spark Streming还可以将处理完的数据推送到文件系统、数据库或者实时仪表盘上,用来做具体的展示。Spark Stream
2020-12-25 01:01:40 2205 1
原创 sparkStreaming:实时流代码案例(实现Wordcount)
依赖包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <!-- https://mvnrepository.com/artifact/org.ap
2020-12-22 21:02:36 863
原创 sparkStream
依赖包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <dependency> <groupId>org.apach
2020-12-19 09:44:45 111 1
原创 用Java读写Hbase,无法运行,显示连接的其他主机
在用java创建hbase表时,无法创建成功,查看日志文件,显示的是一直在尝试连接另外一台机器:(运行的主机是192.168.136.20)这是因为windows没有安装hbase,没有其运行所需要的环境,需要自己修改修改配置,在该目录下修改文件:C:\Windows\System32\drivers\etc\hosts0.0.0.0 flash.cn0.0.0.0 www.flash.cn0.0.0.0 geo2.adobe.com192.168.136.10 hadoop01我这里原
2020-12-18 10:34:16 149
转载 Spark Shuffle相关参数优化
原文连接Spark2.x优化:Shuffle相关参数优化一、前言大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。二、相关参数及优化建议1.spark.shuffle.file.buffer默认值:32KB参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲区中,待缓冲区写满之后,才会溢写到磁盘。
2020-12-11 15:08:42 687
原创 kafka安装(单机)及基本命令
目录安装调试基本语法安装调试1、安装包下载:https://pan.baidu.com/s/1il4pKzJHIOU3wG1BBotmlw 提取码:cd7b2、解压到虚拟机中指定位置tar -zxvf kafka_2.11-2.0.0.tgz -C /opt/3、根据自己需要修改下文件名mv kafka_2.11-2.0.0/ kafka4、配置环境变量#进入profilevi /etc/profile#配置环境export KAFKA_HOME=/opt/kafkaexpo
2020-12-02 19:03:05 739
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人