自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

雨钓的专栏

学而时习之

  • 博客(55)
  • 资源 (11)
  • 收藏
  • 关注

翻译 Presto系列 | 六、Memory Management

Presto 内存管理机制

2020-08-31 23:41:25 1126

翻译 Presto系列 | 五、Tuning Presto SQL Query

Presto SQL 的优化

2020-08-31 23:14:04 806

翻译 Presto系列 | 三、Presto Architecture

一、Coordinator and Workers in a ClusterPresto是一个MPP风格的数据库查询引擎,他不依赖于运行Presto服务器的垂直扩展,他可以以水平的方式横向扩展集群,即可以通过增加节点来增大其处理能力。利用这种架构Presto可以跨集群的对大量数据进行处理。Presto的每个节点作为一个单独的服务运行,运行Presto的节点彼此相互协作,构成了Presto集群。图4-1展示了由一个coordinator和多个Worker组成的集群的简要描述。Presto通过&nbsp

2020-06-08 00:20:36 617

翻译 Presto系列 | 四、Presto Query Planner And Optimizer

Presto 执行计划以及相关优化策略详解;

2020-05-22 00:24:11 1416

翻译 Presto系列 | 二、Presto Web UI

Presto Web UI 可以用来检查和监控Presto集群,以及运行的查询。他所提供的关于查询的详细信息可以更好的理解以及调整整个集群和单个查询。需要注意的是,Presto Web UI所展示的信息都来自于Presto系统表,关于Presto系统表之后文章中再补充,这里不再多说;当你进入Presto Web时,你将会看到如同1所示的界面:主要分为上下两部分,上面描述了集群信息,下面是查询列表;首页集群信息Running Queries当前在集群中正在执行的查询的个数。包含所有用户提交的查

2020-05-20 22:44:29 4303 2

翻译 Presto系列 | 一、Presto SQL On Everything

presto是一个开源的分布式查询引擎,目前Facebook的大部分SQL分析工作由它支持。Presto被设计成自适应的、灵活的和可扩展的。它支持具有不同特征的多重查询场景这些包括:具有亚秒级延迟要求的面向用户的应用程序;统计或join tb级数据的多小时ETL作业Presto Connector API 已为数十个数据源提供高性能的I/O接口,包括Hadoop数据仓库、rdbms、NoSQL系统和流处理系统,在这个文章里, 我将列出一些Presto在Facebook上支持的用例。然后描述它的

2020-05-20 08:09:15 3673

翻译 Spark——Chapter3:A Tour of Spark’s Toolset

Spark 组成: lower-level APIS , Structured APIs 以及一系列附加的函数库Running Production Applicationsspark使得开发和创建针对大数据的应用程序变得非常简单。 通过spark-submit一个命令行构建工具,Spark还使您可以轻松地将交互式探索转换为生产应用程序spark-submit does...

2019-04-05 21:20:56 256

翻译 Spark——Chapter2:Spark's Basic Architecture

翻译:《Spark: The Definitive Guide 》Author:Bill Chambers and Matei Zaharia译者: 雨钓(有增改)Spark Applications一個spark应用程序包含一个driver  process 程序和一系列 executor processes,driver process负责在你集群的一个节点上执行你的main...

2019-04-05 20:52:40 409

翻译 Kafka Consumer

客户端从kafka集群中消费数据,同时对于kafka broker的失败客户端可以自动进行处理,也可以自动的适应topic partition在集群间的迁移。允许使用consumer group来与broker进行交互以实现负载均衡。consumer维护着到broker的TCP链接以便获取数据。在使用consumer之后如果没有关闭这些链接的话会导致资源泄露,consumer...

2019-02-14 22:49:19 1321

翻译 (DDIA)数据存储与检索(一)

翻译《Designing Data-Intensive Applications》作者:Martin Kleppmann译者:雨钓(有增改)Storage And Retrieval一个数据库最基本的要具有两个功能:当你给它一些数据的时候它可以帮你存储数据,之后当你需要这些数据时,他可以返回给你所需要的数据。你(应用程序开发人员)向数据库提供固定格式的数据,稍后你就可以再次请求获取这些数...

2019-02-14 22:47:59 1269

翻译 (DDIA)数据存储与检索(二)——LSM简介

SSTables and LSM-Trees在上一篇文章《(DDIA)数据存储与检索(一)》的图3-3中,每个日志结构的segment文件存储的都是键值对。 这些key-value会按照他们被写入的顺序存储,并且在日志中后加的key-value的值更有用。现在我们可以对segment文件的格式做一个简单的更改。 我们要求key-value对的序列按键排序。 乍一看,这个要求似乎破坏了顺序写的优...

2019-02-14 22:47:21 813

翻译 (DDIA)数据存储与检索(三)——B-tree

翻译《Designing Data-Intensive Applications》作者:Martin Kleppmann译者:雨钓(有增改)B-Tree目前我们所讨论的日志结构的索引已经被广泛认可,但是他们却不是最普遍的索引类型。被用于构建索引的最普遍的数据结构于此有很大的不同,我们称之为:B-Tree在1970年引入,不到10年之后,已经发展到“无所不在”,B-trees经受住了时间的...

2019-02-14 22:16:17 339

翻译 (DDIA)SQL与NoSQL数据模型简介

翻译《Designing Data-Intensive Applications》作者:Martin Kleppmann译者:雨钓(有增改)一、SQL与NOSQL起源与优劣对比1.1、SQL今天最著名的数据结构可能就是SQL了,一种基于Edgar Codd在1970年提出的关系模型: 数据被组织成关系(SQL中的表),其中每个关系是一个无序的元组集合(SQL中的行), 关系模型是一个理论...

2019-01-26 14:33:07 826

原创 虚拟化技术(五)——Container技术存在的问题

如果Container技术这么好那我们是不是可以完全抛弃虚拟机,所有虚拟机原有的使用场景全部改用Container呢?答案是不行!因为Container也有他的局限性,这主要有两方面的原因:第一是Container技术本身;第二是使用Container的应用场景上。一、Container技术本身的不足**Container技术本身最大的问题就是安全性。在之前文章中提到,C...

2019-01-20 19:13:18 474

原创 虚拟化技术(四)——Container技术

概述前面介绍了。因为虚拟机中Guest OS开销太大,会造成隔离的虚机越多资源被浪费的就越多的情况出现。所以有人就会想,可不可以不启动Guest OS,而是直接使用Host OS来模拟一个相对完整的操作系统呢。这样就不需要再在Host OS上跑Guest OS,按照这个思路,逐渐发展出来了操作系统级的虚拟化技术,就是利用操作系统本身的功能来实现虚拟化,这就是Container技术 。结构如下图(...

2019-01-20 13:26:17 735

原创 虚拟化技术(三)——虚拟机存在的问题

之所以使用虚拟机,其出发点是我们可以利用虚机将一台大的服务器隔离成多个小的虚机,每个虚机跑独立的应用,这样便于我们管理;举个例子,假设没有虚拟机,我们将多个应用跑在一台服务器上,多个应用间很有可能会出现端口冲突,或者多个应用使用同一个软件的版本不一样(例如使用不同版本的Python,JDK版本不一样等等),即在一台机器上运行多个应用可能产生冲突,所以可以考虑将一台服务器隔离成多个资源隔离的虚拟机...

2019-01-20 13:12:21 584

原创 虚拟化技术(二)——常见的虚拟化技术

之前大致介绍了什么是虚拟化,并以CPU的虚拟化为例进行简要介绍,纠正一些人们对于虚拟化的误解!那本本节就来说一说常见的虚拟化技术!概述上节提到,以笔者为例,平时在PC上使用比较多的虚拟化是Vmwear(一个桌面软件,当然偶尔也会使用Virtual Box,后者是一个开源软件功能依旧很强大),这类软件可以在windows上安装linux虚拟机(用户学习linux系统,或者安装hadoop集群进...

2019-01-20 13:10:00 2053

原创 虚拟化技术(一)——虚拟化简介

一、云计算当年随着云计算的概念被大肆炒作,近乎妇孺皆知,至于它实际是否如媒体宣传的那样,在此不做评论,我们只探讨技术。云计算的理念是使人们(目前主要是企业)可以像用电一样使用计算资源。按照我的理解云计算就是将大量的物理服务器的CPU,磁盘,内存等硬件资源集中起来,将他们组成一个大的逻辑概念上的资源池,即进行逻辑上抽象的“池化”,从外面看上去他就是一个整体,需要注意的是这里的"资源池"中最小的粒...

2019-01-20 13:07:12 2339

翻译 The world beyond batch: Streaming 102(上篇)

The world beyond batch: Streaming 102(上篇)By Tyler AkidauAugust 5, 2015雨钓 译 (有增改)绪论编者注:这是关于数据处理演变的两部分系列文章的第二篇,重点关注流式系统、无界数据集和大数据的未来。详细的可以查看上一篇文章以及相关书籍,链接如下;See part one. Also, check out "Strea...

2019-01-13 23:14:31 1034

翻译 Everything You Know About Latency Is Wrong

Everything You Know About Latency Is WrongDecember 12, 2015 by Tyler Treat雨钓 译 有增改前言 Okay,或许并不是你知道的所有关于延迟的认识都是错误的,但是现在我需要提醒你的是,我们推理延迟的方法和工具存在严重的缺陷,本位中我会解释为什么这样说。事实上,他们不仅仅是有缺陷的,甚至是在误导你。当我在九月份...

2019-01-13 15:42:47 502

翻译 The world beyond batch: Streaming 101

The world beyond batch: Streaming 101(A high-level tour of modern data-processing concepts.)By Tyler AkidauAugust 5, 2015雨钓 译 (有部分增删)前言今天流式数据处理在大数据领域是一件大事,理由如下: 企业渴望更加及时的数据,而且采用流式处理是降低延迟的很好...

2018-11-22 14:58:35 929

原创 Hive-1.1.0的注意事项之transform的坑

hive transform 的坑

2017-04-16 23:19:20 3610

原创 Hive调用Java类ReflectUDF

hive调用java类

2017-04-16 23:02:27 3722

原创 Hive-1.1.0的注意事项之元数据库建表时的字段编码问题

Hive matestore编码问题

2017-04-16 22:21:09 3113

原创 HDFS空间占用问题解决

HDFS文件系统问题

2017-03-29 20:29:32 10831 1

原创 hue安装记录_编译源码安装

hue(CDH)安装

2017-03-29 20:22:38 4325

原创 Oozie(CDH)安装记录

oozie-4.1.0-cdh5.8.0安装记录

2017-03-29 20:06:49 3612

原创 Centos7离线安装Mysql_解压包安装

linux离线安装mysql

2017-03-29 19:57:47 3889

原创 Hive0.13.0简介

Hive0.13.0简单介绍

2016-06-18 21:19:17 8283

原创 zookeeper简介及其搭建

zookeeper简介:zookeeper即分布式数据同步服务,具有数据同步,分布式锁等等功能,Zookeeper集群必须是奇数台,故要保证可靠性至少要三台。理论上至少要保证一半以上的机器运行即可。分leader和Follower。leader只有一个。Follower可以有多个,当leader宕掉后,会在在其余Follower中选举一个作为leader。数据同步是指:每台Cilent ...

2016-05-31 22:04:10 1216

转载 浅谈Java中的hashcode方法

浅谈Java中的hashcode方法转载:http://www.cnblogs.com/dolphin0520/p/3681042.html  哈希表这个数据结构想必大多数人都不陌生,而且在很多地方都会利用到hash表来提高查找效率。在Java的Object类中有一个方法:1public native int hashCode

2016-05-26 22:02:44 545

原创 Hadoop2.2.0伪分布式之MapReduce简介

Hadoop中的MapReduce简述

2016-05-26 15:13:19 9126 3

原创 Hadoop2.2.0伪分布式中HDFS简述

Hadoop2.x的伪分布式下的HDFS概述

2016-05-26 13:48:40 1821

原创 Hadoop2.2.0伪分布式搭建简述

使用Vmware10+Hadoop2.2.0+redHat6.3在单节点上搭建Hadoop伪分布式,流程简述。

2016-05-25 19:26:06 8420 1

原创 Tomcat之虚拟主机配置以及web应用配置

Tomcat配置

2016-04-15 17:58:42 13992 4

原创 Tomcat之内置数据源(DBCP)的配置(for JDBC)

Tomcat内置数据源的说明

2016-04-15 10:35:08 5506 1

原创 三种数据库连接池的配置及使用(For JDBC)

三种开源数据源c3p0,DBCP以及Tomcat内置数据源(DBCP)的使用简介,

2016-04-15 09:26:49 19194 2

原创 Spring 一、 之Bean容器初始化以及bean实例的获取

Spring IOC容器初始化及其所代理的Bean实例的获取IOC容器主要用到两个包(以Spring3.2为例):1)spring-beans-3.2.0.RELEASE.jar:主要是BeanFactory及其子类(详细内容参考;http://www.cnblogs.com/davidwang456/p/4213652.html)2)spring-context-3.2.0.RELE

2016-04-13 18:31:21 3429

原创 org.apache.cxf.interceptor.Fault: Could not start Jetty server on port 8,888: Cannot assign requeste

在本地发布webService时报错: org.apache.cxf.interceptor.Fault: Could not start Jetty server on port 8,888: Cannot assign requested address: bind

2016-03-12 08:56:49 5682

转载 WebService概述(转载)

WebService概述

2016-03-05 21:36:13 969

MySQL_for_Linux的rpm安装文件(Client+Service)

linux下的MySQL的rpm安装文件包括Client和Service

2016-06-01

Mybatis自动生成dao与model类的工具

Mybatis自动生成dao与model类的工具,txt说明文档中有使用方法:复制其中的命令在cmd窗口中进入jar所在目录下运行命令即可。

2016-04-28

xml工具ar.com.tadp.xml.rinzo

方便xml开发的eclipse插件:ar.com.tadp.xml.rinzo安装后可以在编辑xml文档时进行类的代码提示,

2016-04-28

eclipse 插件SVN

SVN插件,直接解压放到eclipse安装目录下的dropins目录中即可例如: D:\eclipse\dropins

2016-04-28

unetbootin-windows

linux系统镜像安装工具

2016-04-28

冰点文库工具

冰点文库

2016-04-28

SecureCRT&SecureFX中文绿色版

SecureCRT&SecureFX中文绿色版

2016-04-28

滚动截屏的小软件FastStoneCapturecn

滚动截屏的小软件FastStoneCapturecn,可以方便实现滚动截屏,

2016-04-28

开源数据库连接池dbcp

开源数据库连接池dbcp及其文档

2016-04-15

开源数据库连接池c3p0

开源数据库连接池c3p0的jar包以及文档

2016-04-15

HttpClient工具访问WebService所需jar包

HttpClient工具访问WebService所需jar包 包含:com.springsource.org.apache.commons.httpclient-3.1.0 、commons-codec-1.3.jar、commons-logging-1.1.1.jar

2016-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除