2019年10月_sisi.li8

11月 10月 09月 08月 07月 06月 04月 03月 02月 01月

原创 spark中的累加器与广播变量介绍

简介在spark中，提供了两种类型的共享变量，累加器（accumulator）与广播变量（broadcast variable）。累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。...

2019-10-30 13:10:22 606

原创使用spark rdd连接mysql数据源

Spark 支持通过Java JDBC访问关系型数据库。需要通过JdbcRDD进行，示例如下:1. 在pom.xml中添加mysql的依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId&gt...

2019-10-30 10:58:52 981

原创将函数传递给Spark

Spark中的函数传递Spark的API在很大程度上依赖于在驱动程序中传递函数以在群集上运行。有两种推荐的方法可以做到这一点：匿名函数语法，可用于简短的代码段。关于匿名函数，可以参考我的这篇文章或scala官方文档全局单例对象中的静态方法。例如，您可以如下定义object MyFunctions并传递MyFunctions.func1：object MyFunctions { d...

2019-10-29 15:21:44 344

原创 Spark中的Transformations和Actions介绍

RDD提供了两种类型的操作：transformation和action所有的transformation都是采用的懒策略，如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发。action操作：action是得到一个值，或者一个结果（直接将RDD cache到内存中）常见的转换操作有Transformation 算子含义...

2019-10-28 13:20:54 1119

原创 Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为I...

2019-10-25 22:43:55 488

原创 Spark RDD

Spark RDD概述弹性分布式数据集 Resilient Distributed Datasets (RDDs)，是Spark中最基本的数据（计算）抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。创建RDD的方法有两种：并行化驱动程序中的现有集合，或引用外部存储系统（例如共享文件系统，HDFS，HBase或提供Hadoop InputFormat的任何数据源）...

2019-10-25 11:01:21 609

原创 SparkStream整合hbase

本文将SparkStream和Hbase整合，我将使用Socket流发送数据到SparkStream进行处理，并将处理结果写入Hbase代码实现pom.xml中增加hbase的依赖 <dependency> <groupId>org.apache.hbase</groupId> ...

2019-10-24 10:26:28 755

原创 hbase shell HMaster消失 Can't get master address from ZooKeeper; znode data == null

在hbase数据库中打开hbase shell 命令界面后，输入功能命令后，HMaster消失或者有下列提示错误ERROR: Can't get master address from ZooKeeper; znode data == null整了一天终于解决了，我使用的是hbase自带的zookeeper，因此按照网上搜索的答案大部分都不可行，解决方式如下：删除hadoop的log...

2019-10-24 09:37:22 750

原创 SparkStreaming 整合kafka实例

kafka基础核心概念下面介绍Kafka相关概念,以便运行下面实例的同时，更好地理解Kafka.BrokerKafka集群包含一个或多个服务器，这种服务器被称为brokerTopic每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生...

2019-10-23 10:00:50 1073

原创 SparkStream+kafka报错Fetching topic metadata with correlation id 0 for topics from broker

19/10/22 17:35:44 WARN ClientUtils$: Fetching topic metadata with correlation id 0 for topics [Set(zhaogw)] from broker [id:0,host:dblab-VirtualBox,port:9092] failedjava.nio.channels.ClosedChannelEx...

2019-10-22 17:56:20 1510

原创 Spark Streaming处理文件(本地文件以及hdfs上面的文件)

标题介绍文件流之前先介绍一下Dstream下面是来自官网一段的说明，Discretized Streams或DStream是Spark Streaming提供的基本抽象。它表示连续的数据流，可以是从源接收的输入数据流，也可以是通过转换输入流生成的已处理数据流。在内部，DStream由一系列连续的RDD表示，这是Spark对不可变的分布式数据集的抽象（有关更多详细信息，请参见Spark编程指南）。...

2019-10-22 15:05:38 2255

原创 Spark Streaming处理Socket流简单实例

在本文中我将在IDEA工具中开发一个SparkStream程序用于监听本机9999端口所接收的数据首先，我们将Spark Streaming类的名称以及从StreamingContext进行的一些隐式转换导入到我们的环境中，以便向我们需要的其他类（如DStream）添加有用的方法。StreamingContext是所有流功能的主要入口点。我们创建具有8个执行线程(最大线程数)和10秒批处理间隔的...

2019-10-21 17:15:55 1404

原创为什么springboot tomcat端口默认是8080

spring boot 在 EmbeddedServletContainerAutoConfiguration.java 中进行了 Servlet 容器的相关配置，你可以根据该类下的 EmbeddedTomcat 方法一步一步的向上追溯。最后在 AbstractConfigurableEmbeddedServletContainer.java 中配置了 private int port = 80...

2019-10-19 00:26:48 2189

原创深入理解scala匿名函数

在用scala写spark程序的时候会经常碰到=>这种写法官方文档给出的解释是the tuple on the left of the arrow => is a parameter list and the value of the expression on the right is what gets returned意思就是：=>箭头左侧的元组是参数列表，右侧表...

2019-10-18 01:33:54 1988

原创 IDEA中查看spark的源码

Spark源码程序包下载地址https://archive.apache.org/dist/spark/下载好后解压到文件夹，然后Attach Sources指定文件夹路径即可

2019-10-11 15:45:02 853

zookeeper+kafka.zip

这个是zookeeper和kafka的安装包，Kafka在一个或多个可以跨越多个数据中心的服务器上作为集群运行。Kafka集群将记录流存储在称为topic的类别中。每个记录由一个键，一个值和一个时间戳组成。

2019-11-15

没写文件自动拉取进程.sh

监控进程，看是否还在写日志，没写程序就自动拉起。

2019-11-06

1901-1930.zip

hadoop权威指南，天气数据，包含1901至19030数据。hadoop权威指南......

2019-09-09

毕设项目Solo系统的设计与实现

SoloBlog , 该作者是在 Forest博客系统基础上进行修改的。 SoloBlog 使用的是 Spring+SpringMvc + Mybatis + Layui 打造的一个个人博客模板。花了十天的时间把整个项目的代码都敲了一遍，熟悉了整个项目，修改了原来的一些 bug，增加了个人信息管理，前台写文章等模块。喜欢该项目的话，可以给项目点个 star，如果你想在这基础上修改，那么建议你 fork 该项目，然后再修改哦。项目安装步骤： 1、克隆项目下载项目到本地，解压 2、修改项目配置将数据库文件solo.sql导入到你的你的数据库,并修改源代码的数据库配置文件db.properties为你的账户名密码。由于文件上传是传到本地，且和项目文件夹不在一起，就是说是源码和上传目录是分离的。由于我们把 uploads 目录默认放到 E盘根目录(见源代码UploadFileController)，因此需要在Idea中进行静态资源映射相关配置。项目启动前首先启动redis，否则会显示404页面访问地址：http://localhost/login

2019-09-09