自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据训练营

大数据训练营

  • 博客(448)
  • 资源 (16)
  • 收藏
  • 关注

转载 基于Flume的美团日志收集系统(一)架构和设计

美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部分架构和设计,将主要着眼于日志收集系统整体的架构设计,以及为什么要做这样的设计。第二部分改进和优化,将主要着眼于

2018-04-18 18:51:20 9322

转载 Hadoop安全实践

前言在2014年初,我们将线上使用的 Hadoop 1.0 集群切换到 Hadoop 2.2.0 稳定版, 与此同时部署了 Hadoop 的安全认证。本文主要介绍在 Hadoop 2.2.0 上部署安全认证的方案调研实施以及相应的解决方法。背景集群安全措施相对薄弱最早部署Hadoop集群时并没有考虑安全问题,随着集群的不断扩大, 各部门对集群的使用需求增加,集群

2018-04-18 17:12:12 6529

转载 理解维度数据仓库——事实表、维度表、聚合表

事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。 SateProductMouthUnitsDollarsWAMountain-100J

2018-04-18 14:38:01 30188 1

转载 维度(DM)表、事实(FT)表和聚合(AG)表

2018-04-18 12:30:18 7382

转载 Hive SQL的编译过程

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有

2018-04-17 17:46:43 6333

转载 常见的join算法

大表的Join在OLTP/OLAP领域很常见。对于使用SQL的用户,不需关心底层数据的存储格式、join的处理算法。       CBO(cost based optimizor)会根据join table的统计信息,选择Join算法、多表Join还有顺序问题。例如join顺序的选择就很讲究,pgsql的优化器就就采用了动态规划、遗传算法、启发式搜索等比较复杂的技术。对CBO部分,本文不做

2018-04-16 18:07:15 8054

转载 kibana6.2.2安装

1.获取kibana安装包,解压,进入目录wget https://artifacts.elastic.co/downloads/kibana/kibana-6.2.2-linux-x86_64.tar.gztar -xzf kibana-6.2.2-linux-x86_64.tar.gzcd kibana-6.2.2-linux-x86_64/ 2.修改kibana.ym

2018-04-16 14:48:36 6513

转载 RPC原理详解

RPC 功能目标RPC 的主要功能目标是让构建分布式计算(应用)更容易,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用。 下面我们将具体细化 stub 结构的实现。RPC 调用分类RPC 调用分以下两种:同步调用 客户方等待调用执行完成并返回结果。 异步调用 客户方调用后不用等待...

2018-04-14 23:36:53 6211

转载 Presto架构及原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品,单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目标

2018-04-13 10:36:37 6844

转载 Druid和Caravel在去哪儿大住宿的实践

长期以来,Qunar大住宿的数据仓库主要使用Hive作为主要的查询引擎,部分需求配合Postgres和Mysql数据库,用作报表的汇总和展示。  随着业务的发展,数据量和常用的维度都在快速的增长,以订单为例,目前常用的维度超过50个,采用关系型数据库存储,很难保证查询汇总的性能。急需一个适用于分析汇总查询的OLAP引擎。  Druid是一个开源的,分布式的,列存储的,适用于实时数据

2018-04-11 23:17:21 6958

转载 解密Airbnb 自助BI神器:Superset 颠覆 Tableau

概述我非常认同前百度数据工程师、现神策分析创始人桑老师最近谈到的数据分析三重境界:统计计数多维分析机器学习数据分析的统计计数和多维分析,我们通常称之为数据探索式分析,这个步骤旨在了解数据的特性,有助于我们进一步挖掘数据的价值。而基于我们对数据的理解,再引入机器学习的算法对数据做出预测就变得水到渠成了。现实世界里,大部分的公司更多时间其实没有这个精力去搭建复杂的数据分析平台,面对快速变化的业务需求,...

2018-04-09 19:17:06 21699 3

转载 Airbnb开源ReAir工具,提供PB级数据仓库的迁移和备份

摘要:本篇讲述Airbnb的开源ReAir工具,提供PB级数据仓库的迁移和备份。Airbnb大数据平台架构成为Airbnb公司提升产品决策的关键部分。其Hive数据仓库从2013年中旬的350 TB暴增到11 PB (2015年末统计的数据)。随着公司的成长,数据仓库的可靠性需求日益剧增。我们寻求迁移数据仓库,但现有的迁移工具要么在大数据仓库时有问题,要么就是有很明显的操作

2018-04-09 18:48:47 6699

转载 10大主流压力测试工具推荐

在移动应用和Web服务正式发布之前,除了进行必要的功能测试和安全测试,为了保证互联网产品的服务交付质量,往往还需要做压力/负载/性能测试。然而很多传统企业在试水互联网+的过程中,往往由于资源或产品迭代速度等原因忽视了这一块工作,导致新产品上线之后频繁出现卡顿等严重影响用户体验的问题。那么互联网产品为什么要进行压力/负载/性能测试,又有哪些工具帮我们实现呢,本文将为您细说端详。压力/负载/性

2018-03-27 10:28:04 15288 1

转载 UML图中类之间的关系:依赖,泛化,关联,聚合,组合,实现

类与类图1) 类(Class)封装了数据和行为,是面向对象的重要组成部分,它是具有相同属性、操作、关系的对象集合的总称。2) 在系统中,每个类具有一定的职责,职责指的是类所担任的任务,即类要完成什么样的功能,要承担什么样的义务。一个类可以有多种职责,设计得好的类一般只有一种职责,在定义类的时候,将类的职责分解成为类的属性和操作(即方法)。3) 类的属性即类的数据职责,类的操作即类的行为

2018-01-07 18:34:06 6235

转载 Java开发中的23种设计模式详解 - good推荐

总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两类:并

2018-01-06 17:58:48 6107

转载 Elasticsearch 5.4 Mapping详解

前言一Field datatype字段数据类型1string类型2 text类型3 keyword类型4 数字类型5 Object类型6 date类型7 Array类型8 binary类型9 ip类型10 range类型11 nested类型12token_count类型13 geo point 类型二Meta-Fields元数据1 _all2 _field_names3 _i

2017-12-30 10:53:13 6201

转载 tez on hive 安装部属

编译tez: 目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧 下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-src.tar.gz 由于编译Tez-UI模块,需要使用nodejs,所以建议还是 提前安装nodejs 和npm工具,安装方式,可

2017-12-18 14:36:44 9343

转载 OLAP工具-greenplum(GPDB)初识

简介及适用场景如果想在数据仓库中快速查询结果,可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性:第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hado

2017-12-17 21:34:11 10250

转载 spark反压机制详解

1、为什么引入Backpressure                默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Stream

2017-12-11 15:40:34 11586

转载 storm与spark streaming反压机制

因特殊业务场景,如大促、秒杀活动与突发热点事情等业务流量在短时间内剧增,形成巨大的流量毛刺,数据流入的速度远高于数据处理的速度,对流处理系统构成巨大的负载压力,如果不能正确处理,可能导致集群资源耗尽最终集群崩溃,因此有效的反压机制(backpressure)对保障流处理系统的稳定至关重要。Storm和Spark Streaming都提供了反压机制,实现各不相同对于开启了acke

2017-12-11 15:38:44 6253

转载 kafka0.8--0.11各个版本特性预览介绍

kafka-0.8.2 新特性  producer不再区分同步(sync)和异步方式(async),所有的请求以异步方式发送,这样提升了客户端效率。producer请求会返回一个应答对象,包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节点,因而可以减少server端资源的开销。新的producer和所有的服务器网络通信都是异步地,在ack=-1模式下需要等待所有的r

2017-12-10 11:14:59 6883

转载 Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比

Spark SQL也公布了很久,今天写了个程序来看下Spark SQL、Spark Hive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。  首先我们来看看我的环境:3台DataNode,2台NameNode,每台机器20G内存,24核数据都是lzo格式的,共336个文件,338.6 G无其他任务执行如果想及时了解Spark、Hadoop或者Hbase

2017-12-03 11:02:57 9093 1

转载 Spark Sort Based Shuffle内存分析

分布式系统里的Shuffle 阶段往往是非常复杂的,而且分支条件也多,我只能按着我关注的线去描述。肯定会有不少谬误之处,我会根据自己理解的深入,不断更新这篇文章。前言借用和董神的一段对话说下背景:shuffle共有三种,别人讨论的是hash shuffle,这是最原始的实现,曾经有两个版本,第一版是每个map产生r个文件,一共产生mr个文件,由于产生的中间文件太大影响扩展性,社区提出了第

2017-12-03 10:21:21 6072

转载 初识Calcite——使用实例

Calcite(https://calcite.apache.org/)是Apache的一个孵化器项目,它是一个构建JDBC或者ODBC访问数据库的框架,通过自定义一些adapter通过sql访问任意类型的数据,回想起我们之前使用SQL的场景只有使用访问关系数据库如MYSQL、ORACLE等,通过hive查询HDFS上的数据,但是如果我们希望通过SQL接口访问内存中的某个数据结构(首先这个结构有关

2017-11-18 18:55:29 13173 1

转载 JVM实用参数(八)GC日志

原文地址:https://blog.codecentric.de/en/2014/01/useful-jvm-flags-part-8-gc-logging/作者:PATRICK PESCHLOW,译者:Greenster 校对:梁海舰本系列的最后一部分是有关垃圾收集(GC)日志的JVM参数。GC日志是一个很重要的工具,它准确记录了每一次的GC的执行时间和执行结果,通过分析GC日志

2017-11-18 18:32:31 6305

转载 JVM实用参数(七)CMS收集器

原文连接 本文连接  译者: iDestiny  校对:梁海舰HotSpot JVM的并发标记清理收集器(CMS收集器)的主要目标就是:低应用停顿时间。该目标对于大多数交互式应用很重要,比如web应用。在我们看一下有关JVM的参数之前,让我们简要回顾CMS收集器的操作和使用它时可能出现的主要挑战。就像吞吐量收集器(参见本系列的第6部分),CMS收集器处理老年代的对象,然而其操作

2017-11-18 14:58:48 6150

转载 JVM实用参数(六) 吞吐量收集器

在实践中我们发现对于大多数的应用领域,评估一个垃圾收集(GC)算法如何根据如下两个标准:吞吐量越高算法越好暂停时间越短算法越好首先让我们来明确垃圾收集(GC)中的两个术语:吞吐量(throughput)和暂停时间(pause times)。 JVM在专门的线程(GC threads)中执行GC。 只要GC线程是活动的,它们将与应用程序线程(application threads)争

2017-11-18 12:21:26 6235

转载 JVM实用参数(五)新生代垃圾回收

原文链接  作者: PATRICK PESCHLOW ;译者:严亮本部分,我们将关注堆(heap) 中一个主要区域,新生代(young generation)。首先我们会讨论为什么调整新生代的参数会对应用的性能如此重要,接着我们将学习新生代相关的JVM参数。单纯从JVM的功能考虑,并不需要新生代,完全可以针对整个堆进行操作。新生代存在的唯一理由是优化垃圾回收(GC)的性能。更具体说

2017-11-18 09:39:07 6072

转载 JVM实用参数(四)内存调优

原文地址,译文地址,作者:PATRICK PESCHLOW,译者:郑旭东  校对:梁海舰理想的情况下,一个Java程序使用JVM的默认设置也可以运行得很好,所以一般来说,没有必要设置任何JVM参数。然而,由于一些性能问题(很不幸的是,这些问题经常出现),一些相关的JVM参数知识会是我们工作中得好伙伴。在这篇文章中,我们将介绍一些关于JVM内存管理的参数。知道并理解这些参数,将对开发者和

2017-11-17 23:12:27 6257

转载 JVM实用参数(三)打印所有XX参数及值

原文地址:https://blog.codecentric.de/en/2012/07/useful-jvm-flags-part-3-printing-all-xx-flags-and-their-values/译者:李洪柱     校对:方腾飞本篇文章基于Java 6(update 21oder 21之后)版本, HotSpot JVM 提供给了两个新的参数,在JVM启动后,在

2017-11-17 22:23:03 6053

转载 JVM实用参数(二)参数分类和即时(JIT)编译器诊断

作者: PATRICK PESCHLOW     原文地址    译者:赵峰 校对:许巧辉在这个系列的第二部分,我来介绍一下HotSpot JVM提供的不同类别的参数。我同样会讨论一些关于JIT编译器诊断的有趣参数。JVM 参数分类HotSpot JVM 提供了三类参数。第一类包括了标准参数。顾名思义,标准参数中包括功能和输出的参数都是很稳定的,很可能在将来的JVM版本

2017-11-16 23:04:49 6182

转载 JVM实用参数(一)JVM类型以及编译器模式

原文地址:https://blog.codecentric.de/en/2012/07/useful-jvm-flags-part-1-jvm-types-and-compiler-modes/译者:赵峰,iDestiny    校对:郭蕾现在的JVM运行Java程序(和其它的兼容性语言)时在高效性和稳定性方面做的非常出色。自适应内存管理、垃圾收集、及时编译、动态类加载、锁优化——

2017-11-16 18:59:24 6045

转载 浅谈对JIT编译器的理解。

1. 什么是Just In Time编译器?Hot Spot 编译当 JVM 执行代码时,它并不立即开始编译代码。这主要有两个原因:首先,如果这段代码本身在将来只会被执行一次,那么从本质上看,编译就是在浪费精力。因为将代码翻译成 java 字节码相对于编译这段代码并执行代码来说,要快很多。当 然,如果一段代码频繁的调用方法,或是一个循环,也就是这段代码被多次执行,那

2017-11-16 18:58:25 6489

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据

2017-11-11 23:45:06 6167

转载 Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速

2017-11-11 23:40:26 6018

转载 Elasticsearch之es学习工作中遇到的坑(陆续更新)

1:es集群脑裂问题(不要用外网ip,节点角色不要混用)  原因1:阿里云服务器,外网有时候不稳定。    解决方案:单独采购服务器,内网安装  原因2:master和node节点没有分开  解决方案:    分角色:master节点(三台),data节点(随着数据增加而增加),client(随着查询压力而增加)节点    Master节点:node

2017-11-09 18:51:05 9895

转载 利用Kryo序列化库是你提升Spark性能要做的第一件事

本文基于Spark2.1.0版本套用官文Tuning Spark中的一句话作为文章的标题:Often, choose a serialization type will be the first thing you should tune to optimize a Spark application. 在Spark的架构中,在网络中传递的或者缓存在内存、硬盘中的对象需要进行序列化操作,序列

2017-11-07 15:20:25 8303

转载 Hadoop-0.20.2公平调度器算法解析

1. 目的本文描述了hadoop中的公平调度的实现算法,公平调度器是由facebook贡献的,适合于多用户共享集群的环境的调度器,其吞吐率高于FIFO,论文参见参考资料[1]。本文分析的Hadoop版本是0.20.2,在新版本(0.21.0)中,公平调度算法已经有了改进与增强。本文组织结构如下:1)目的    2)公平调度介绍  3)公平调度算法分析 4)新版hadoop中公平调度

2017-11-01 18:08:07 6207

转载 Hadoop计算能力调度器算法解析

1. 编写目的本文描述了hadoop中的计算能力调度器(Capacity Scheduler)的实现算法,计算能力调度器是由Yahoo贡献的,主要是解决HADOOP-3421中提出的,在调度器上完成HOD(Hadoop On Demand)功能,克服已有HOD的性能低效的缺点。它适合于多用户共享集群的环境的调度器。本文解析的计算能力调度器属于Hadoop 0.20.2。本文组织结构如 下:1)

2017-11-01 18:07:17 6298

原创 修改kafka源码,编译kafka 0.8.2.2,解决bug kafka.common.InvalidTopicException

编译kafka 0.8.2.2,解决bug kafka.common.InvalidTopicException: topic name kafka:h5_send_msg is illegal, contains a character other than ASCII alphanumerics, '.', '_' and '-'一: 背景说明异常信息:[2017-10-2

2017-10-30 15:09:37 15019

consul_1.6.1_darwin_amd64.zip

consul_1.6.1_darwin_amd64.zip for mac

2019-09-26

SonarLint-3.5-for-intellj-idea-亲测好使.zip

SonarLint-3.5-for-intellj-idea-亲测好使 解压,直接打开idea的preferences,选择plugins,选择下面的install plugin form disk,选择文件SonarLint-3.5.1.2759.zip,完成安装即可

2019-08-09

spark-2.3.3-bin-hadoop2.6.tgz

spark-2.3.3-bin-hadoop2.6.tgz

2019-07-05

spark-2.3.3-bin-hadoop2.6.tgz

spark-2.3.3-bin-hadoop2.6.tgz

2019-07-05

geckodriver-v0.24.0-macos火狐插件

geckodriver-v0.24.0-macos火狐插件,帮助selenium

2019-04-05

draw.io mac版 非常好用的画图软件

draw.io非常好用的画图软件 支持各种图 mac版本 非常好

2019-01-21

mac jd-gui.app版本jd-gui-osx-1.4.0

mac jd-gui.app版本jd-gui-osx-1.4.0 亲自测试 可以使用的

2019-01-21

avro-tool-1.7.4.jar下载

avro-tool-1.7.4.jar下载,avro下载,国内下载超级慢啦

2017-03-13

openstack超级源码

openstack超级源码

2015-01-15

酒店管理系统-毕业设计

酒店管理系统毕业设计,基本的功能,免费下载喔

2014-05-12

MahoutInAction中文版啦word版

MahoutInAction中文版啦word版 免费的喔

2014-03-22

hadoop-0.20.2.tar.gz下载

hadoop-0.20.2.tar.gz下载

2013-09-30

hbase-0.90.5下载

hbase-0.90.5.tar.gz 分布式列式数据库 基于hadoop 的hdfs文件系统 hbase-0.90.5.tar.gz下载

2013-09-30

AjaxControlToolkit.Binary.NET4官网完整版

AjaxControlToolkit.Binary.NET4 官网完整版 免费下载 《幽灵工作室》提供

2013-06-20

oracle 10g SQL Reference

oracle 10g SQL Reference

2013-05-14

C#语言c/结构酒店管理系统_幽灵工作室提供

本系统是c/s结构的酒店管理系统 提供了系统的源码,图片,还有数据库文件 详细: 项目名称:酒店管理系统 开发方式:个人开发 开发环境:Windows 7 开发工具:Visual Studio 2010 SqlServer Management Studio 开发技术:WinForm应用系统开发 项目结构:C –S结构 数据库:SqlServer 2008 开发技术:C#、WinForm、ADO.NET 开发周期:两周,按时完成 项目描述:项目整体分为权限模块,普通用户模块和管理员模块。1.权限模块的数据库中有用户表和角色表,权限模块有用户登陆,用户修改密码,用户修改角色,用户的添加和删除功能。2.普通用户模块的数据库中有客户表和客户类型的表,普通用户模块有房间入住信息管理,可以管理房间状态,管理房间入住信息,有客户入住信息管理,可以查看入住客户信息,筛选入住客户信息,给具体某个客户增加消费,以房间为单位给用户结账。3.管理员模块的数据库中有房间表,楼层表,房间类型表,房间状态表,管理员模块具有房间信息管理,楼层信息管理,房间状态信息管理,房间类型信息管理,可以对房间,房间状态,房间类型,楼层进行增删改查,还具有修改用户角色和用户密码,添加用户的功能。

2013-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除