2016年12月_往事随风ing

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 [数据库基础]-- 数据库的长连接和短链接

什么是长连接？其实长连接是相对于通常的短连接而说的，也就是长时间保持客户端与服务端的连接状态。通常的短连接操作步骤是：连接-》数据传输-》关闭连接；而长连接通常就是：连接-》数据传输-》保持连接-》数据传输-》保持连接-》…………-》关闭连接；这就要求长连接在没有数据通信时，定时发送数据包，以维持连接状态，短连接在没有数据传输时直接关闭就行了什么时候用长连接，短连接？长连接主要用于...

2016-12-20 13:35:46 6538

翻译 [Spark源码贡献]--怎样贡献代码给spark team

以前总是想着贡献源码，只是想想罢了，没有认真去做过。今天突发奇想，觉得是不是可以尝试着看看呢？虽然是菜鸟，但是菜鸟也能看看吧！于是打开spark的官方文档，迈出了第一步，希望这篇文章能对想贡献源码给spark team的朋友有用。由于水平有限，文章稍微粗糙,如需查看原文，请见：http://spark.apache.org/contributing.html译文如下：本指南记录了对Apache S...

2016-12-18 16:53:51 2473

原创 [Spark进阶]-- spark RDD操作算子详解（应用场景汇总）

一、aggregateByKey应用举例1、uv统计输入元祖数据格式：("201612091515 www.sohu.cn 121.23.24.21","23 2 45 67 dsks")实现代码： val uv_init: RDD[(String, String)] = ?? //累加，去重放到set集合 val uv_calculate: RDD[(String, mu...

2016-12-18 11:53:25 2356

原创 [Spark基础]-- spark streaming从指定offset处消费Kafka数据(第一种方式)

一、情景：当spark streaming程序意外退出时，数据仍然再往Kafka中推送，然而由于Kafka默认是从latest的offset读取，这会导致数据丢失。为了避免数据丢失，那么我们需要记录每次消费的offset，以便下次检查并且从指定的offset开始读取二、环境：kafka-0.9.0、spark-1.6.0、jdk-1.7、scala-2.10.5、idea16三、实现代码：...

2016-12-18 11:35:34 17979 15

原创 [Kafka基础]-- Kafka的2套Consumer API(本文讲解SampleConsumer)

Kafka提供了两套API给ConsumerThe high-level Consumer API The SimpleConsumer API 第一种高度抽象的Consumer API，它使用起来简单、方便，但是对于某些特殊的需求我们可能要用到第二种更底层的API，那么先介绍下第二种API能够帮助我们做哪些事情一个消息读取多次在一个处理过程中只消费Partition其中的...

2016-12-18 11:11:30 1717

原创 [Kafka基础]-- auto.offset.reset介绍

我们先看看最新的官方文档说明：What to do when there is no initial offset in Kafka or if the current offset does not exist any more on the server (e.g. because that data has been deleted):earliest: automatically ...

2016-12-17 12:38:37 8610

原创 [Kafka基础]--自定义Kafka分区器

在调用Kafka的Producer API时，如果没有指定分区器，那么数据将会根据默认分区器的算法均分到各个分区。然而实际的生产环境中，可能Kafka的分区数不止一个(官方建议：Kafka的分区数量应该是Broker数量的整数倍！)，所以这时需要我们自定义分区器。本文将从以下几个方面介绍自定义分区器的实现：1、默认分区器的实现2、我的自定义分区器实现3、自定义分区器的使用一、先...

2016-12-17 12:05:51 5264 1

原创 [Scala基础]--调用url获取返回值

在Scala编程中，常常会用到调用第三方接口，获取返回值(文件内容是字符类型，或者返回的是字符串)，那么使用Scala自带的Scala.io.Source类，将非常方便。举例如下： 1、url="http://localhost:9008/services/user/getSampleValue" 2、返回值：有两种 (1)字符串："{"status":"1","timestamp...

2016-12-14 10:22:31 4685

转载 [Spark版本更新]--Spark-2.0.2

原文链接：https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12338301Sub-task[SPARK-16963] - Change Source API so that sources do not need to keep unbounded state [S...

2016-12-11 13:46:52 1516

原创 [Spark基础]-- spark RDD操作算子详解（汇总）

一、aggregateByKey [Pair] 像聚合函数一样工作，但聚合应用于具有相同键的值。也不像聚合函数，初始值不应用于第二个reduce。列表变式(1)def aggregateByKey[U](zeroValue: U)(seqOp: (U, V) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): RDD[...

2016-12-11 13:32:46 3691

转载 [Java基础]-- "\\s+"匹配任意空白字符

说起来,博主使用过的正则场景虽然不多,但是就是在这当中,我发现"\\s+"真好用！详解 "\\s+"正则表达式中\s匹配任何空白字符，包括空格、制表符、换页符等等, 等价于[ \f\n\r\t\v]\f -> 匹配一个换页 \n -> 匹配一个换行符 \r -> 匹配一个回车符 \t -> 匹配一个制表符 \v -> 匹配一个垂直制表符而“\s+...

2016-12-05 17:12:34 11807