- 博客(15)
- 资源 (24)
- 收藏
- 关注
原创 spark中的累加器与广播变量介绍
简介在spark中,提供了两种类型的共享变量,累加器(accumulator)与广播变量(broadcast variable)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。...
2019-10-30 13:10:22 606
原创 使用spark rdd连接mysql数据源
Spark 支持通过Java JDBC访问关系型数据库。需要通过JdbcRDD进行,示例如下:1. 在pom.xml中添加mysql的依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId>...
2019-10-30 10:58:52 981
原创 将函数传递给Spark
Spark中的函数传递Spark的API在很大程度上依赖于在驱动程序中传递函数以在群集上运行。有两种推荐的方法可以做到这一点:匿名函数语法,可用于简短的代码段。 关于匿名函数,可以参考我的这篇文章或scala官方文档全局单例对象中的静态方法。例如,您可以如下定义object MyFunctions并传递MyFunctions.func1:object MyFunctions { d...
2019-10-29 15:21:44 344
原创 Spark中的Transformations和Actions介绍
RDD提供了两种类型的操作:transformation和action所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。action操作:action是得到一个值,或者一个结果(直接将RDD cache到内存中)常见的转换操作有Transformation 算子含义...
2019-10-28 13:20:54 1119
原创 Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为I...
2019-10-25 22:43:55 488
原创 Spark RDD
Spark RDD概述弹性分布式数据集 Resilient Distributed Datasets (RDDs),是Spark中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。创建RDD的方法有两种:并行化 驱动程序中的现有集合,或引用外部存储系统(例如共享文件系统,HDFS,HBase或提供Hadoop InputFormat的任何数据源)...
2019-10-25 11:01:21 609
原创 SparkStream整合hbase
本文将SparkStream和Hbase整合,我将使用Socket流发送数据到SparkStream进行处理,并将处理结果写入Hbase代码实现pom.xml中增加hbase的依赖<!--hbase的依赖--> <dependency> <groupId>org.apache.hbase</groupId> ...
2019-10-24 10:26:28 755
原创 hbase shell HMaster消失 Can't get master address from ZooKeeper; znode data == null
在hbase数据库中打开hbase shell 命令界面后,输入功能命令后,HMaster消失或者有下列提示错误ERROR: Can't get master address from ZooKeeper; znode data == null整了一天终于解决了,我使用的是hbase自带的zookeeper,因此按照网上搜索的答案大部分都不可行,解决方式如下:删除hadoop的log...
2019-10-24 09:37:22 750
原创 SparkStreaming 整合kafka实例
kafka基础核心概念下面介绍Kafka相关概念,以便运行下面实例的同时,更好地理解Kafka.BrokerKafka集群包含一个或多个服务器,这种服务器被称为brokerTopic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生...
2019-10-23 10:00:50 1073
原创 SparkStream+kafka报错Fetching topic metadata with correlation id 0 for topics from broker
19/10/22 17:35:44 WARN ClientUtils$: Fetching topic metadata with correlation id 0 for topics [Set(zhaogw)] from broker [id:0,host:dblab-VirtualBox,port:9092] failedjava.nio.channels.ClosedChannelEx...
2019-10-22 17:56:20 1510
原创 Spark Streaming处理文件(本地文件以及hdfs上面的文件)
标题介绍文件流之前先介绍一下Dstream下面是来自官网一段的说明,Discretized Streams或DStream是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,也可以是通过转换输入流生成的已处理数据流。在内部,DStream由一系列连续的RDD表示,这是Spark对不可变的分布式数据集的抽象(有关更多详细信息,请参见Spark编程指南)。...
2019-10-22 15:05:38 2255
原创 Spark Streaming处理Socket流简单实例
在本文中我将在IDEA工具中开发一个SparkStream程序用于监听本机9999端口所接收的数据首先,我们将Spark Streaming类的名称以及从StreamingContext进行的一些隐式转换导入到我们的环境中,以便向我们需要的其他类(如DStream)添加有用的方法。StreamingContext是所有流功能的主要入口点。我们创建具有8个执行线程(最大线程数)和10秒批处理间隔的...
2019-10-21 17:15:55 1404
原创 为什么springboot tomcat端口默认是8080
spring boot 在 EmbeddedServletContainerAutoConfiguration.java 中进行了 Servlet 容器 的相关配置,你可以根据该类下的 EmbeddedTomcat 方法一步一步的向上追溯。最后在 AbstractConfigurableEmbeddedServletContainer.java 中配置了 private int port = 80...
2019-10-19 00:26:48 2189
原创 深入理解scala匿名函数
在用scala写spark程序的时候会经常碰到=>这种写法官方文档给出的解释是the tuple on the left of the arrow => is a parameter list and the value of the expression on the right is what gets returned意思就是:=>箭头左侧的元组是参数列表,右侧表...
2019-10-18 01:33:54 1988
原创 IDEA中查看spark的源码
Spark源码程序包下载地址https://archive.apache.org/dist/spark/下载好后解压到文件夹,然后Attach Sources指定文件夹路径即可
2019-10-11 15:45:02 853
zookeeper+kafka.zip
2019-11-15
毕设项目Solo系统的设计与实现
2019-09-09
WinSCP.exe
2019-09-09
jd-gui.rar
2019-09-09
erlang_rabbitmq.rar
2019-09-09
tomcat-redis.rar
2019-06-28
kibana-4.6.3-windows-x86.rar
2019-06-21
用蛮力法实现选择排序,冒泡排序程序;用减治法实现插入排序;分治法应用-快排,合并排序,0-1背包问题;Prim算法求最小生成树。伪代码以及java代码实现
2018-05-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人