自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (10)
  • 收藏
  • 关注

转载 [数据库基础]-- 数据库的长连接和短链接

什么是长连接?其实长连接是相对于通常的短连接而说的,也就是长时间保持客户端与服务端的连接状态。通常的短连接操作步骤是:连接-》数据传输-》关闭连接;而长连接通常就是:连接-》数据传输-》保持连接-》数据传输-》保持连接-》…………-》关闭连接;这就要求长连接在没有数据通信时,定时发送数据包,以维持连接状态,短连接在没有数据传输时直接关闭就行了什么时候用长连接,短连接?长连接主要用于...

2016-12-20 13:35:46 6538

翻译 [Spark源码贡献]--怎样贡献代码给spark team

以前总是想着贡献源码,只是想想罢了,没有认真去做过。今天突发奇想,觉得是不是可以尝试着看看呢?虽然是菜鸟,但是菜鸟也能看看吧!于是打开spark的官方文档,迈出了第一步,希望这篇文章能对想贡献源码给spark team的朋友有用。由于水平有限,文章稍微粗糙,如需查看原文,请见:http://spark.apache.org/contributing.html译文如下:本指南记录了对Apache S...

2016-12-18 16:53:51 2473

原创 [Spark进阶]-- spark RDD操作算子详解(应用场景汇总)

一、aggregateByKey应用举例1、uv统计输入元祖数据格式:("201612091515  www.sohu.cn  121.23.24.21","23 2 45 67 dsks")实现代码: val uv_init: RDD[(String, String)] = ?? //累加,去重放到set集合 val uv_calculate: RDD[(String, mu...

2016-12-18 11:53:25 2356

原创 [Spark基础]-- spark streaming从指定offset处消费Kafka数据(第一种方式)

一、情景:当spark streaming程序意外退出时,数据仍然再往Kafka中推送,然而由于Kafka默认是从latest的offset读取,这会导致数据丢失。为了避免数据丢失,那么我们需要记录每次消费的offset,以便下次检查并且从指定的offset开始读取二、环境:kafka-0.9.0、spark-1.6.0、jdk-1.7、scala-2.10.5、idea16三、实现代码:...

2016-12-18 11:35:34 17979 15

原创 [Kafka基础]-- Kafka的2套Consumer API(本文讲解SampleConsumer)

Kafka提供了两套API给ConsumerThe high-level Consumer API The SimpleConsumer API     第一种高度抽象的Consumer API,它使用起来简单、方便,但是对于某些特殊的需求我们可能要用到第二种更底层的API,那么先介绍下第二种API能够帮助我们做哪些事情一个消息读取多次 在一个处理过程中只消费Partition其中的...

2016-12-18 11:11:30 1717

原创 [Kafka基础]-- auto.offset.reset介绍

我们先看看最新的官方文档说明:What to do when there is no initial offset in Kafka or if the current offset does not exist any more on the server (e.g. because that data has been deleted):earliest: automatically ...

2016-12-17 12:38:37 8610

原创 [Kafka基础]--自定义Kafka分区器

在调用Kafka的Producer API时,如果没有指定分区器,那么数据将会根据默认分区器的算法均分到各个分区。然而实际的生产环境中,可能Kafka的分区数不止一个(官方建议:Kafka的分区数量应该是Broker数量的整数倍!),所以这时需要我们自定义分区器。本文将从以下几个方面介绍自定义分区器的实现:1、默认分区器的实现2、我的自定义分区器实现3、自定义分区器的使用一、先...

2016-12-17 12:05:51 5264 1

原创 [Scala基础]--调用url获取返回值

在Scala编程中,常常会用到调用第三方接口,获取返回值(文件内容是字符类型,或者返回的是字符串),那么使用Scala自带的Scala.io.Source类,将非常方便。举例如下:  1、url="http://localhost:9008/services/user/getSampleValue"  2、返回值:有两种       (1)字符串:"{"status":"1","timestamp...

2016-12-14 10:22:31 4685

转载 [Spark版本更新]--Spark-2.0.2

原文链接:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12338301Sub-task[SPARK-16963] - Change Source API so that sources do not need to keep unbounded state [S...

2016-12-11 13:46:52 1516

原创 [Spark基础]-- spark RDD操作算子详解(汇总)

一、aggregateByKey [Pair] 像聚合函数一样工作,但聚合应用于具有相同键的值。 也不像聚合函数,初始值不应用于第二个reduce。 列表变式(1)def aggregateByKey[U](zeroValue: U)(seqOp: (U, V) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): RDD[...

2016-12-11 13:32:46 3691

转载 [Java基础]-- "\\s+"匹配任意空白字符

说起来,博主使用过的正则场景虽然不多,但是就是在这当中,我发现"\\s+"真好用!详解 "\\s+"正则表达式中\s匹配任何空白字符,包括空格、制表符、换页符等等, 等价于[ \f\n\r\t\v]\f -> 匹配一个换页 \n -> 匹配一个换行符 \r -> 匹配一个回车符 \t -> 匹配一个制表符 \v -> 匹配一个垂直制表符而“\s+...

2016-12-05 17:12:34 11807

数据仓库需求模板下载excel

1、需求变更申请单模版 2、数据仓库业务需求模板

2023-03-21

Canal开源产品介绍

早期,阿里巴巴B2B公司因为存在杭州和美国 双机房部署,存在跨机房同步的业务需求,当时 早期的数据库同步业务,主要是基于trigger的方式 获取增量变更。 从2010年开始,阿里系公司开始逐步的尝试基 于数据库的日志解析,获取增量变更进行同步, 由此衍生出了增量订阅&消费的业务,从此开启 了一段新纪元.

2018-08-23

window10的wget包

解压后,进入cmd命令行输入wget url即可使用。 举例:wget http://www.baidu.com

2017-12-13

redis-笔记

redis学习笔记

2016-08-31

cloudera-enterprise-datasheet.pdf

cloudera-enterprise-datasheet.pdf(企业和免费版区别)

2016-08-15

数据库性能调优.原理与技术.pdf

数据库性能调优.原理与技术.pdf

2016-08-14

spark论文原文:EECS-2014-12.pdf

伯克利大学spark论文原文:EECS-2014-12.pdf

2016-08-07

bigBench.pdf

Evaluating Hive and Spark SQL with BigBench

2016-08-07

文件hibernate

hibernate-mapping.dtd

2015-04-28

oracle架包

这是一个连接oracle数据库的连接架包哈

2015-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除