自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 数据结构与算法学习总结(七)——二叉树的概念

二叉树的定义二叉树(binary tree)由结点的有限集合构成这个有限集合或者为空集(empty),或者为由一个根节点(root)及两颗互不相交、分别称作这个根的左子树(left bustree)和右子树(right subtree)的二叉树组成的集合。二叉树的五种基本形态二叉树可以是空集合,因此根可以有空的左子树或右子树,或者左右子树都为空。二叉树相关术语结点-...

2019-03-06 15:57:11 578

原创 数据结构与算法学习总结(六)——字符串的模式匹配算法

基本概念字符串是一种特殊的线性表,即元素都是”字符“的线性表。字符是组成字符串的基本单位,字符的取值依赖于字符集,例如二进制的字符集为0,1,则取值只能为(0,1),再比如英语语言,则包括26个字母外加标点符号。例如"abcde"就是一个字符串,其中'a','b','c','d','e'都分别是串中的字符,串的长度是5。线性表的存储结构同样适用于字符串,但是因为链式结构的额外开销,...

2019-02-24 23:11:56 1246

原创 数据结构与算法学习总结(五)——前缀、中缀、后缀表达式与栈的应用

前缀、中缀、后缀表达式的定义前缀表达式、中缀表达式、后缀表达式是四则运算的三种不同的表达方式。中缀表达式就是我们常使用的运算表达式,例如:(1+2)*3/(4+5)前缀表达式又被称为波兰式,它的特点是运算符位于操作数的前面。例如上面的表达式用前缀表达式表示的结果为:后缀表达式又被称为逆波兰式,它的特点是运算符位于操作数的后面。例如上面的表达式用后缀表达式表示的结果为:中缀表达式...

2019-02-17 22:43:24 731

原创 数据结构与算法学习总结(四)——队列

基本介绍与栈相对,队列是一种先进先出(First In First Out)的线性表,操作的规则是按照到达的顺序来释放元素,所有的插入在表的一端进行,而所有的删除都在表的另一端进行。主要元素队头(front)队尾(rear)主要操作入队列(enQueue)出队列(deQueue)取队首元素(getFront)判断队列是否为空抽象数据类型语言仍然采用Jav...

2019-02-17 20:51:48 356

原创 数据结构与算法学习总结(三)——栈的类定义与实现方式

前面已经提及了多次,栈是一种操作受限的线性表,其操作的规则是后进先出(Last In First Out),栈的主要操作有进栈(PUSH)、出栈(POP),主要应用有表达式求值(下篇博客会详细剖析前缀、中缀、后缀表达式与栈的应用)、消除递归、深度优先搜索等。抽象数据类型这回开始用Java来编写了,应该更容易看懂了。package top.zhanglugao.stack;/***...

2019-02-16 13:35:53 392

原创 《精益数据分析》的一些总结

买这本书的初衷是想趁着假期提升一下自己数据分析方面的实操能力,以为这会是一本充斥着计算公示以及代码的实操大全,但读完第一部分我发现我错了。这本书更着重于讲述在不同的商业模式下,精益创业者应该关注的数据指标,从而用数据来驱动决策。也就是着重于教你在不同的商业模式的不同阶段应该重点关注分析哪些数据指标并根据结果来调整你的业务侧重点以及方向,但本书并不关心这个指标的值如何得到。是的,很标准的产品经理思维...

2019-02-12 20:40:46 3114

原创 数据结构与算法学习总结(二)——线性表

线性结构介绍线性表之前我们先了解一下线性结构,上篇说到数据结构从逻辑上分为线性结构和非线性结构两种。组成线性结构由一个B=(K,R)的二元组组成,其中K={a0,a1,...,an-1},R={r},K中存储的是线性结构集合中的元素,R维护节点之间的关系。对于线性结构中的非空集合K一定有一个唯一的开始结点,它没有前驱结点,只能有一个唯一的直接后继结点。还会存在一个唯一的终止结点,它...

2019-02-11 14:09:25 635

原创 数据结构与算法学习总结(一)——概念介绍

Spark进行到机器学习的部分了,这部分会比较注重算法,所以我打算重新回顾一下数据结构与算法的相关内容,这一次重新学习我是参照中国大学MOOC(非常强大,很多名校的课程都有)上北大的数据结构与算法的教程,这里主要是做一些学习内容的总结,同时还在看两本书,估计更新进度不会快。编写计算机程序的目的是为了解决实际的应用问题,所以大多数时候我们需要对问题进行抽象,分析并且抽象化问题的需求,再去建立问题...

2019-02-08 22:55:57 446

原创 《程序员修炼之道-从小工到专家》读后感

这本书翻译过来的名字我总感觉怪怪的,英文原名是《The Pragmatic Programmer:From Journeyman to Master》,直译过来应该是注重实效的程序员,这一点也一直贯彻着整本书,整本书主要就是为了回答这样的问题,如何成为一个注重实效的程序员,如何成为一个注重实效的团队?这本书的适用范围可以从初学者到有经验的程序员再到项目经理,作为一本偏向理论与思想的书,书中不可...

2019-02-05 22:42:30 2033

原创 一起学习Spark(十一)Structured Streaming与Spark Streaming的取舍

Spark Streaming概念特性介绍通过之前的文章我们了解了Structured Streaming是建立在SparkSQL引擎之上的可伸缩和高容错的流式处理引擎,那么Spark Streaming又是何方神圣呢?Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafka、Flume、以及...

2019-02-04 20:04:04 986

原创 一起学习Spark(十)结构化流Structured Streaming编程指南(6)-checkpoint失败恢复&查询更改后的语义恢复&连续处理

1.使用检查点(checkpoint)从失败中恢复在出现故障或有意关闭后,可以使用检查点和写前日志来恢复查询的进度和状态,并从中断的地方继续。我们可以给查询配置一个检查点位置,这样查询会将所有的进度信息(即在每个触发器中处理的偏移范围)和正在运行的聚合(例如之前示例中的word count)保存到检查点的位置。检查点的位置必须是HDFS兼容文件系统中的一个路径,并且可以在启动查询时设置为Dat...

2019-02-03 16:24:41 1395

原创 一起学习Spark(九)结构化流Structured Streaming编程指南(5)-Streaming Query

定义了最终结果DataFrame/Dataset之后,剩下的就是开始流计算了,为此,必须使用Dataset.writeStream()方法返回的DataStreamWriter。而且必须在这个接口中指定一个或多个以下内容:1.输出接收器的详细信息:数据格式、位置等。2.输出模式:指定写入输出接收器的内容。3.查询名称:可选,为标识指定查询的唯一名称。4.触发间隔:可选,指定触发间隔...

2019-02-03 11:16:32 3038

原创 一起学习Spark(八)结构化流Structured Streaming编程指南(4)-流重复数据的删除&多个水印的处理策略&一些流式DS/DF不支持的方法

流重复数据的删除可以使用一个唯一身份标识符来删除数据流中的重复数据记录。这与使用唯一标识符列对静态数据进行重复数据的删除完全相同,查询将从以前的记录中存储必要数量的数据以用来过滤重复的记录。与聚合类似,这里也可以使用带或不带水印的重复数据删除。1).使用水印,如果数据的到达存在一个延迟多久到达的上限,那么可以在事件时间列上定义一个水印,删除重复数据时将同时使用guid和事件时间列。查询将使...

2019-02-02 19:34:33 1001

原创 一起学习Spark(七)结构化流Structured Streaming编程指南(3)-Streaming Join操作

Structured Streaming支持一个流式DataSet/DataFrame与另一个流式或静态的DataSet/DataFrame进行Join操作。Join的结果将会是渐进性的增量改变的,类似于之前的流聚合的结果。在本节中,我们将探索在上述情况下支持哪种类型的连接(即内部连接、外部连接等)。在所有受支持的连接类型中,流DataSet/DataFrame连接的结果与流中包含相同数据的静态D...

2019-02-02 14:00:28 819

原创 一起学习Spark(六)结构化流Structured Streaming编程指南(2)-窗口函数

本篇主要内容是Spark Structured Streaming实现事件时间的窗口操作。滑动事件时间窗口的聚合操作对于Structured Streaming非常简单,与分组聚合非常相似。在分组聚合中,会按照用户的指定的一个或多个列进行分组,再为用户指定的分组列中的每个惟一值维护聚合值(例如计数),对于基于窗口的聚合,为每一个事件时间所在的窗口维护聚合值。让我们用一个例子来理解它。比如现...

2019-02-01 20:27:43 1068

原创 一起学习Spark(五)结构化流Structured Streaming编程指南(1)-基本介绍

概述Structured Streaming是建立在SparkSQL引擎之上的可伸缩和高容错的流式处理引擎,我们可以像操作静态数据的批量计算一样来执行流式计算。当流式数据不断的到达的过程中Spark SQL的引擎会连续不断的执行计算并更新最终结果。DataSet/DataFrame的api也可以应用在Structured Streaming流式计算中,例如流式聚合,时间事件窗口,数据的join...

2019-01-28 21:12:24 835

原创 Spark从Mysql中根据条件查询数据并写入到Mongodb

Spark支持的数据源非常之多,例如textfile,Hive,jdbc,sequence file等等,这里我想展示的是一个从Mysql中读取数据经过处理分析后存入Mongodb的例子。语言自然是Scala,下面直接放上代码:package com.testimport com.mongodb.{MongoClient, MongoClientURI}import org.apach...

2019-01-20 20:35:08 1485

原创 一起学习Spark(四)Spark SQL、DataFrames和Datasets

概念简介Spark SQL是Spark用来处理结构化数据的模块,与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据和计算执行的结构的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种与Spark SQL交互的方法,包括SQL和DataSet API,他们在计算结果时使用相同的执行引擎,而不是依赖于用来表达计算的API或编程...

2019-01-20 18:13:32 504

原创 一起学习Spark(三)Spark RDD编程

一般来说,每个Spark应用程序都有一个Driver程序,Driver运行用户编写的main函数,并在集群上执行各种并行操作。Spark提供的一个主要抽象概念就是RDD(resilient distributed dataset),RDD是可以并行计算的跨集群节点分区的元素结合,RDD可以通过hdfs(也可以是其他hadoop支持的文件系统)或者现有的Scala集合转换得到,Spark还允许我们将...

2019-01-14 15:29:56 765

原创 一起学习Spark(二)Spark Quick Start

本篇博客将介绍如何快速的上手使用spark,关于spark与hadoop安装相关的内容我这里不多说了,对应的资料与博客很多。 在Spark2.0以前,Spark的主要编程接口是RDD(弹性分布式数据集)。在2.0以后的版本,RDD被Dataset取代了,相比于RDD,Dataset底层有着更丰富的优化,也同时拥有更优秀的性能。在2.0及以后的版本,RDD仍然被支持,但Spark官...

2019-01-03 11:06:05 354

原创 一起学习Spark(一)初步了解Spark

Apache Spark是用于大数据处理的统一分析引擎。1.Spark的优势a)速度跟hadoop的mapreduce相比,他的速度是mapreduce的100倍以上。Spark通过使用最先进的DAG调度器、查询优化器和物理执行引擎实现了在批处理和流式计算两方面的高性能。b)易用性能使用Java、Scala、Python、R和SQL脚本等语言快速编写出应用程序s...

2018-12-21 16:18:30 300

原创 SpringBoot1.5.6+freeMarker配置Ueditor

其实在之前的两个项目就已经使用过Ueditor了 自认为坑都碰过一遍了这回换了SpringBoot+Freemaker的项目后又发现了很多问题下面就能详细说说吧 ueditor是提供了jar包的形式引入到项目中的但我这边是直接把ueditor java后台的源码直接引入到项目了 这样方便后期的改动事实证明,需要改动的地方确实很多ueditor在加载时需要调用uedito

2017-11-23 17:44:09 2073

原创 eureka注册时使用ip而不是hostname

eureka注册使用ip而不是hostname

2017-08-11 13:43:27 3093

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除