2020年06月_神之凝视

原创使用Github搭建个人网站

一.创建新仓库二.指定仓库信息三.创建首页新建文件index.html四.登录五.设置网站点击：选择主题：保存：六.注意事项仅支持静态网页。只能是html文件。

2020-06-30 00:16:03 209

原创 Spark报Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize

一.异常信息Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize 1024M.Total size of serialized results of 12082 tasks is bigger than spark.driver.maxResultSize 1024M.Total size of serialized results of 12131 tasks is bigg

2020-06-29 17:21:54 5534

原创 Flink流连接器之Kafka【一】【Kafka安装、Kafka版本差异、序列化类型】

一.简介Flink提供了特殊的Kafka连接器，用于在Kafka主题之间读写数据。Flink Kafka Consumer与Flink的检查点机制集成在一起，以提供一次精确的处理语义。为了实现这一目标，Flink不仅依赖于Kafka的消费者组偏移量跟踪，而且在内部也跟踪并检查这些偏移量。对于大多数用户来说，FlinkKafkaConsumer08【08代表Kafka的版本】是合适的。具体如下：二.安装Apache Kafka参考博客：Kafka分布式安装备注：按照Kafka快速入门中的说明

2020-06-27 17:18:26 801

原创 Flink流连接器【数据源/接收器】

一.预定义的源和接收器Flink内置了一些基本数据源和接收器，它们始终可用。该预定义的数据源包括文件，目录和Socket，并可以加载集合和迭代器的数据。该预定义的数据接收器支持写入文件，输出信息和异常。二.捆绑式连接器连接器提供用于与各种第三方系统接口的代码。当前支持以下系统：Apache Kafka（源/接收器）Apache Cassandra（接收器）Amazon Kinesis Streams（源/接收器）Elasticsearch（接收器）Hadoop文件系统（接收器）Rabbi

2020-06-27 16:58:43 1014

原创 Git常用操作【管理Github、常用命令、管理远程仓库】

一.关联Github1.创建仓库目录2.进入目录，右键选择Git Bash Here3.关联Github账号和邮箱二.Git常用操作1.初始化生成.git目录：2.查看git状态3.创建文件并查看效果：4.添加文件到暂存区备注：此时该文件会变成绿色，表示以添加到暂存区。5.提交到Git6.解决git中文乱码在配置文件etc/gitconfig中添加配置[gui] encoding = utf-8[i18n] commitencoding

2020-06-27 12:46:31 149

原创 Git快速安装

一.下载前往Git官网下载最新安装包：Git安装包下载如下：二.安装1.设置安装路径2.安装相关组件3.设置开始菜单4.设置默认编辑工具5.设置使用Git Bash下面的步骤默认安装即可：6.开始安装7.安装完成8.检测安装成功！...

2020-06-26 18:48:43 261

原创 Flink流计算状态与容错【键控状态、操作状态、托管状态】

有状态的函数和运算符在处理单个元素/事件的过程中存储数据，从而使状态成为任何类型的更精细操作的关键构建块。包括：当应用程序搜索某些事件模式时，状态将存储到目前为止遇到的事件序列。在每分钟/小时/天汇总事件时，状态将保留待处理的汇总。在数据点流上训练机器学习模型时，状态保持模型参数的当前版本。当需要管理历史数据时，该状态允许有效访问过去发生的事件。Flink需要了解状态，以便使用检查点使状态容错并允许流应用程序的保存点。状态还允许重新缩放Flink应用程序，这意味着Flink负责在并行实例之

2020-06-25 20:05:01 661

原创 Spark ML基本算法【Correlation相关性】

一.简介计算两个系列数据之间的相关性是“统计”中的常见操作。spark.ml 提供了很多系列中的灵活性，计算两两相关性。目前支持的相关方法是Pearson和Spearman的相关。Correlation 使用指定的方法为向量的输入数据集计算相关矩阵。输出将是一个DataFrame，其中包含向量列的相关矩阵。二.代码实战package big.data.analyse.mlimport org.apache.log4j.{Level, Logger}import org.apache.spark

2020-06-25 12:01:58 2820

原创 Spark 机器学习库【MLlib】编程指南

一.机器学习库MLlib是Spark的机器学习库【ML】。其目标是使实用的机器学习算法变得可扩展且容易使用。在较高级别，它提供了以下工具：机器学习算法：常见的机器学习算法，例如分类，回归，聚类和协同过滤。特征化：特征提取，变换，降维和选择。管道：用于构建，评估和调整ML管道的工具。持久性：保存和加载算法、模型和管道。实用程序：线性代数，统计信息，数据处理等。二.基于DataFrame的API基于MLlib RDD的API现在处于维护模式。从Spark 2.0开始，软件包中基于RDD的A

2020-06-23 21:30:13 2077

原创 Github创建子目录

一.点击创建目录按钮初始状态：二.填写多层目录【使用/分层】填写备注：效果：这样多层目录就创建好了，不能先创建src，再进入src目录下创建下层目录【没有创建目录按钮】，且创建时必须输入两层，单层被认为是文件！三.创建其它目录参照上面的创建方式就可以创建多层次目录。...

2020-06-23 15:36:52 2701 1

原创 Spark2.x常见异常【InvalidPathException】

一.异常详细信息java.nio.file.InvalidPathException: Malformed input or input contains unmappable characters:./Spark2机器学习.jar...二.原因分析及解决方案由于中文名的文件，导致编译失败，解决方法如下：jar包的明细都使用英文或数字，规避使用中文。设置环境变量，指定编码：file.encoding = UTF-8。...

2020-06-22 17:26:29 484

原创 Github基本概念

一.仓库【Repository】仓库，即你项目存放的位置，要想在Github上开源一个项目，就必须创建一个新的Repository，多个项目对应多个仓库。二.收藏【Star】仓库主页star按钮，可以根据需要收藏自己感兴趣的项目，star数的多少也反映了项目的受欢迎程度。三.复制克隆项目【Fork】简单理解就是要想在现有的项目的基础上做二次开发，就可以先Fork这个项目，此时自己的Github主页上就会多出一个项目，这个项目就是基于你Fork的项目，此时你就可以随心所欲的修改这个项目，而不会对原

2020-06-20 19:11:01 242

原创 Spark Streaming窗口函数

一.简介Spark Streaming还提供了窗口计算，可以在数据的滑动窗口上应用转换。下图说明了此滑动窗口。如该图所示，每当窗口滑动在源DStream，落入窗口内的源RDDS被组合及操作以产生RDDS的窗口DStream。在这种特定情况下，该操作将应用于数据的最后3个时间单位，并以2个时间单位滑动。这表明任何窗口操作都需要指定两个参数。窗口长度 - 窗口的持续时间。滑动间隔 -进行窗口操作的间隔。这两个参数必须是源DStream的批处理间隔的倍数。让我们用一个例子来说明窗口操作。每10秒

2020-06-20 11:49:09 671

原创 Sparkstreaming常用算子详解

一.基本算子二.updateStateByKeyupdateStateByKey操作可以保持任意状态，同时不断用新信息更新它。要使用此功能，必须执行两个步骤。定义状态-状态可以是任意数据类型。定义状态更新功能-使用功能指定如何使用输入流中的先前状态和新值来更新状态。在每个批次中，Spark都会对所有现有密钥应用状态更新功能，而不管它们是否在批次中具有新数据。如果更新函数返回，None将删除键值对。让我们用一个例子来说明。假设要保持在文本数据流中看到的每个单词的连续计数。此处，运行计数是状态

2020-06-20 11:32:41 1755

原创 Spark2.x之SQL/join关联报CROSS JOIN错误

一.算子join在Spark中，两个dataframe关联分为使用算子join关联和使用视图SQL关联两种。在使用join算子关联时，一般的关联语句是这样的：words_df.join(words_df, words_df("word") === words_df("word")).show()words_df.join(words_df, words_df("word") === words_df("word"), joinType = "left").show()效果：当没有明确的关联字段

2020-06-18 20:38:15 2160 1

原创 Flink预定义时间戳提取器/水印发射器

一.简介Flink提供了抽象，允许程序员分配自己的时间戳并发出自己的水印。更具体地说，根据使用情况，可以通过实现AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks接口之一来实现。简而言之，第一个将定期发出水印，而第二个则根据传入记录的某些属性发出水印，例如，每当流中遇到特殊元素时。为了进一步简化此类任务的编程工作，Flink附带了一些预先实现的时间戳分配器。二.时间戳递增的分配器定期生成水印的最简单的特殊情况是给定源任务看到

2020-06-16 17:32:52 444

原创 Flink整合Kafka实现WordCount

一.简介Flink的基本信息和API信息以及Kafka的基本信息在此不再赘述，需要了解的参考博客：Flink：Flink流处理API编程指南 Kafka：Kafka基本信息二.代码实战package cn.kafkaimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.window

2020-06-15 17:50:14 459

原创 Flink整合Kafka报objenesis

一.场景因Scala函数式和链式编程使用使得代码简介性相较Java有质的提升，因此，在Flink开发时还是使用Scala进行编程。但是在加载Kafka的数据时报objenesis异常，但是代码中没有使用POJO类。二.异常信息D:\Users\Administrator\jdk1.8.0_66\bin\java -Didea.launcher.port=7536 -Didea.launcher.bin.path=D:\Users\Administrator\IDEA15\bin -Dfile.enco

2020-06-15 17:25:44 264

原创 Kafka启动异常之InconsistentClusterIdException

一.场景kafka集群一般都是部署在zookeeper集群之上的，当Kafka出现异常时，强行关闭kafka集群或zookeeper集群时，重新启动时经常会出现异常InconsistentClusterIdException。二.异常信息ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)kafka.common.InconsistentClusterIdExcepti

2020-06-15 14:24:44 6789 5

原创 Flink生成时间戳/水印

一.概述生成时间戳/水印与在事件时间有关。有关事件时间，处理时间和摄取时间，参考：事件时间概述为了处理事件时间，流式传输程序需要相应地设置时间特征。val env = StreamExecutionEnvironment.getExecutionEnvironmentenv.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)二.分配时间戳为了使用事件时间，Flink需要知道事件的时间戳，这意味着流中的每个元素都需要分配其事件时间

2020-06-12 18:53:56 2958

原创 Spark1.x升级Spark2.x常见异常HBase篇【hbase.rpc.timeout】

一.场景分析大数据环境频繁使用metastore连接HBase加载数据时，偶尔会抛出hbase.rpc.timeout异常导致任务直接失败的情况。异常信息：Caused by: org.apache.hadoop.hbase.ipc.CallTimeoutException: Call id=2, waitTime=600020, operationTimeout=600000 expired. at org.apache.hadoop.hbase.ipc.Call.checkAndSetTi

2020-06-11 19:23:53 571

原创 Spark1.x升级Spark2.x常见异常HBase篇【CallQueueTooBigException】

一.HBase之CallQueueTooBigException查看RpcServer.java【路径：hbase-2.1.0-src\hbase-2.1.0\hbase-server\src\main\java\org\apache\hadoop\hbase\ipc】源代码可知，报CallQueueTooBigException异常的原因是，RPC队列过大！具体到此处的原因是：Spark升级到2.x版本后，性能大幅提升，同时因HBase升级大2.1导致使用Spark往HBase同步数据的效率大幅增加，进

2020-06-11 17:42:37 698

原创 uni-app基础知识【rich-text、progress】

一.rich-text富文本【很少使用】注意：app-nvue 平台 nodes 属性只支持使用 Array 类型。支付宝小程序 nodes 属性只支持使用 Array 类型。如果需要支持 HTML String，则需要自己将 HTML String转化为 nodes 数组，可使用 html-parser 转换。支持默认事件，包括：click、touchstart、touchmove、touchcancel、touchend、longpress。nodes 属性推荐使用 Array 类型，由

2020-06-10 20:40:16 1647

原创 uni-app基础知识【icon、text】

一.icon图标备注：由于icon组件各端表现存在差异，可以通过使用字体图标的方式来弥补各端差异。二.icon图标案例<view class="lab">图标</view><view> <icon class="icon" type="success"></icon> <icon class="icon" type="warn"></icon> <icon class="icon" type="do

2020-06-09 20:56:48 1528

原创 Solr7新特性【升级须知】

一.概述在开始迁移配置和索引之前，需要考虑 Solr 7 中的主要更改。可能需要了解的新功能，还包括默认行为和已删除的已否决功能的更改。然而，Solr 7 中有许多变化，因此，对 Solr 升级说明以及 Solr 实例中的 CHANGES.txt 文件进行彻底的审查将有助于向 Solr 7 迁移。还应该考虑在尚未升级到的任何版本中对 Solr 所做的所有更改。例如，如果当前正在使用 Solr 6.2，则除了 7.0 的更改之外，还应该查看所有后续 6.x 版本中所做的更改。将数据重新编入索引被认为是

2020-06-09 15:09:09 763

原创 Solr6新特性【升级须知】

一.概述在开始迁移您的配置和索引之前，Solr6 中有一些重大的改变需要考虑。有很多的更改，因此，对 Solr 升级注释部分以及 Solr 实例中的 CHANGES.txt 文件进行彻底的检查将有助于您计划向 Solr6 的迁移。二.Solr6 中新特性的亮点1.Streaming 表达式在 Solr5 中引入的 Streaming 表达式允许查询 Solr 并将结果作为数据流进行排序和聚合。Solr6 中添加了几种新的表达式类型：使用类似 MapReduce 的并行表达式来加快 high-

2020-06-08 17:48:12 451

原创 Spark Streaming编程指南【快速入门】

一.概述Spark Streaming是核心Spark API的扩展，可实现实时数据流【微批处理】的可伸缩，高吞吐量，容错流处理。数据可以从像kafka，flume，kinesis或TCP套接字许多来源摄入，并且可以使用高级函数例如map，reduce，join和window来表达复杂的算法。最后，可以将处理后的数据推送到文件系统，数据库和实时仪表板。实际上，可以在数据流上应用Spark的机器学习和图计算算法。在内部，Spark Streaming接收实时输入数据流，并将数据分成批处理，然后由Spa

2020-06-08 15:14:37 216

原创 Spark结构化流之join

一.join操作结构化流支持将流数据集/数据帧与静态数据集/数据帧以及另一个流数据集/数据帧连接在一起。流连接的结果是增量生成的，类似于流聚合的结果。请注意，在所有受支持的联接类型中，使用流Dataset/DataFrame进行联接的结果将与使用包含流中相同数据的静态Dataset/DataFrame进行联接的结果完全相同。二.流静态联接自从Spark 2.0引入以来，结构化流已支持流和静态DataFrame / Dataset之间的联接（内部联接和某种类型的外部联接）。如下：val staticD

2020-06-06 21:31:05 648

原创 Spark结构化流之水印

一.处理后期数据和加水印现在考虑如果存在事件迟到了应用程序会发生什么。例如，应用程序在12:11接收在12:04（即事件时间）生成的单词。应用程序应使用12:04而不是12:11来更新窗口的旧计数12:00 - 12:10。这在基于窗口的分组中很自然地发生，结构化流可以长时间保持部分聚合的中间状态，以便后期数据可以正确更新旧窗口的聚合，如下所示。但是，要连续几天运行此查询，系统必须限制其累积的中间内存状态量。这意味着系统需要知道何时可以从内存中删除旧状态聚合，因为应用程序将不再接收该聚合的最新数据。为

2020-06-06 16:13:26 2283

原创 Flink迭代流代码实战及原理分析【包含完整代码】

一.简介参考：DataStream API编程指南二.代码实战package cn.streamingimport org.apache.flink.streaming.api.scala._import org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}/** * 统计不及格、及

2020-06-05 19:05:16 331

原创 Flink DataStream API编程指南

一.简介Flink中的DataStream程序是常规程序，可对数据流实施转换（例如，过滤，更新状态，定义窗口，聚合）。最初从各种来源（例如，消息队列，套接字流，文件）创建数据流。结果通过接收器返回，接收器可以例如将数据写入文件或标准输出（例如命令行终端）。Flink程序可以在各种上下文中运行，独立运行或嵌入其他程序中。执行可以在本地JVM或许多计算机的群集中进行。二.代码案例以下程序是流式窗口单词计数应用程序的一个完整的工作示例，该应用程序在5秒的窗口中对来自Socket套接字的单词进行计数。pac

2020-06-04 20:05:34 244

原创 uni-app之video视频组件

一.平台差异说明二.属性说明备注：video默认宽度 300px、高度 225px，可通过 css 设置宽高。三.案例实战1.video界面<view class="page"> <video class="video" id="demoVideo" :controls="false" :enable-progress-gesture="false" :show-center-play-btn="disable" src="https://img.cdn.ali

2020-06-04 17:31:26 34102 18

原创微信小程序修改主页名称【默认WeChat】

一.初始状态二.修改相关配置修改app.json的一下内容：三.效果

2020-06-04 17:07:38 857

原创从数据库和分布式系统浅谈日志那些事

一.什么是日志？日志可能是最简单的存储抽象。它是按时间排序的仅附加的，完全排序的记录序列。看起来像这样：记录被追加到日志的末尾，并且读取从左到右进行。每个条目均分配有唯一的顺序日志条目号。记录的顺序定义了“时间”的概念，因为左边的条目定义为比右边的条目更早。日志条目号可以视为条目的“时间戳记”。首先，将这种顺序描述为时间概念似乎有些奇怪，但是它具有方便的特性，即它可以与任何特定的物理时钟分离。当我们进入分布式系统时，此属性将变得至关重要。记录的内容和格式对于此讨论而言并不重要。另外，我们不能只是继

2020-06-03 20:35:02 362

原创 Kafka常用用例分析

一.消息传递Kafka可以很好地替代传统邮件代理。消息代理的使用有多种原因（将处理与数据生产者分离，缓冲未处理的消息等）。与大多数邮件系统相比，Kafka具有更好的吞吐量，内置的分区，复制和容错能力，这使其成为大规模邮件处理应用程序的理想解决方案。根据我们的经验，消息传递的使用通常吞吐量较低，但是可能需要较低的端到端延迟，并且通常取决于Kafka提供的强大的持久性保证。在此领域中，Kafka与ActiveMQ或 RabbitMQ等传统消息传递系统相当。二.网站活动跟踪Kafka最初的用例是能够将用

2020-06-03 20:10:35 246

原创 uni-app视图容器【cover-view、cover-image】

一.cover-view简介覆盖在原生组件上的文本视图。小程序框架为了优化体验，部分组件如map、video、textarea、canvas通过原生控件实现，原生组件层级高于前端组件，为了能正常覆盖原生组件，设计了cover-view。支持的事件：click二.cover-image简介覆盖在原生组件上的图片视图。可覆盖的原生组件：video、map支持的事件：click不支持的 CSSposition: fixedopacityoverflowpaddinglinebr

2020-06-03 17:05:58 15655 1

原创 Spark结构化流之事件时间窗口操作

滑动事件时间窗口上的聚合对于结构化流而言非常简单，并且与分组聚合非常相似。在分组聚合中，用户指定的分组列中为每个唯一值维护聚合值（例如，计数）。在基于窗口的聚合的情况下，行事件时间所属的每个窗口都会维护聚合值。流现在包含行以及生成行的时间。而不是运行字数统计，我们希望在10分钟的窗口内对字数进行计数，每5分钟更新一次。也就是说，在10分钟窗口12:00-12：10、12：05-12：15、12：10-12:20等之间接收的单词中的单词计数。请注意，12：00-12:10表示数据12:00之后但12:10之

2020-06-02 19:29:28 1010

原创 Flink之Java lambda表达式

一.简介Java 8引入了一些新的语言功能，旨在更快，更清晰地编码。它具有最重要的功能，即所谓的“ Lambda表达式”，为函数式编程打开了大门。Lambda表达式允许以直接方式实现和传递函数，而无需声明其他（匿名）类。注意： Flink支持对Java API的所有运算符使用lambda表达式，但是，每当lambda表达式使用Java泛型时，都需要显式声明类型信息。二.范例与限制下面的示例说明如何实现一个简单的内联map()函数，该函数使用lambda表达式对输入进行平方。函数的输入i和输出参数的类

2020-06-02 14:42:34 1216

空空如也

空空如也