自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据训练营

大数据训练营

  • 博客(17)
  • 资源 (17)
  • 论坛 (7)
  • 收藏
  • 关注

转载 Hadoop MapReduce工作详细流程(Partitioner/SortComparator/GroupingComparator)

map阶段1. 使用job.setInputFormatClass(TextInputFormat)做为输入格式。注意输出应该符合自定义Map中定义的输出。2. 进入Mapper的map()方法,生成一个List。3. 在map阶段的最后,会先调用job.setPartitionerClass()对这个List进行分区,每个分区映射到一个reducer。4. 每

2018-04-26 12:38:47 6197

转载 hadoop的mapreduce编程模型中GroupingComparator的使用

在hadoop的mapreduce编程模型中,当在map端处理完成输出key-value对时,reduce端只会将key相同的到同一个reduce函数中去执行,如果现在map端输出的key是一个对像TextPair,,那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样):1>1>1>1>...12345但是我们有个需求,该对象包含两个整型成员变量first和

2018-04-25 20:17:56 6068

转载 漫谈数据仓库之维度建模

0x00 前言下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正!概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法,如维度建模

2018-04-25 18:42:50 7045

转载 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规

2018-04-25 18:40:59 6311

转载 基于Flume的美团日志收集系统(二)改进和优化

在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Flume的问题总结在Flume的使用过程中,遇到的主要问题如下:a. Channel“水土不服”:使用固定大小的MemoryChannel在日志高峰时常报队列大小...

2018-04-18 18:52:28 6133

转载 基于Flume的美团日志收集系统(一)架构和设计

美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部分架构和设计,将主要着眼于日志收集系统整体的架构设计,以及为什么要做这样的设计。第二部分改进和优化,将主要着眼于

2018-04-18 18:51:20 8918

转载 Hadoop安全实践

前言在2014年初,我们将线上使用的 Hadoop 1.0 集群切换到 Hadoop 2.2.0 稳定版, 与此同时部署了 Hadoop 的安全认证。本文主要介绍在 Hadoop 2.2.0 上部署安全认证的方案调研实施以及相应的解决方法。背景集群安全措施相对薄弱最早部署Hadoop集群时并没有考虑安全问题,随着集群的不断扩大, 各部门对集群的使用需求增加,集群

2018-04-18 17:12:12 6018

转载 理解维度数据仓库——事实表、维度表、聚合表

事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。 SateProductMouthUnitsDollarsWAMountain-100J

2018-04-18 14:38:01 20131

转载 维度(DM)表、事实(FT)表和聚合(AG)表

2018-04-18 12:30:18 6554

转载 Hive SQL的编译过程

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有

2018-04-17 17:46:43 6246

转载 常见的join算法

大表的Join在OLTP/OLAP领域很常见。对于使用SQL的用户,不需关心底层数据的存储格式、join的处理算法。       CBO(cost based optimizor)会根据join table的统计信息,选择Join算法、多表Join还有顺序问题。例如join顺序的选择就很讲究,pgsql的优化器就就采用了动态规划、遗传算法、启发式搜索等比较复杂的技术。对CBO部分,本文不做

2018-04-16 18:07:15 7169

转载 kibana6.2.2安装

1.获取kibana安装包,解压,进入目录wget https://artifacts.elastic.co/downloads/kibana/kibana-6.2.2-linux-x86_64.tar.gztar -xzf kibana-6.2.2-linux-x86_64.tar.gzcd kibana-6.2.2-linux-x86_64/ 2.修改kibana.ym

2018-04-16 14:48:36 6388

转载 RPC原理详解

RPC 功能目标RPC 的主要功能目标是让构建分布式计算(应用)更容易,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用。 下面我们将具体细化 stub 结构的实现。RPC 调用分类RPC 调用分以下两种:同步调用 客户方等待调用执行完成并返回结果。 异步调用 客户方调用后不用等待...

2018-04-14 23:36:53 6038

转载 Presto架构及原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品,单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目标

2018-04-13 10:36:37 6507

转载 Druid和Caravel在去哪儿大住宿的实践

长期以来,Qunar大住宿的数据仓库主要使用Hive作为主要的查询引擎,部分需求配合Postgres和Mysql数据库,用作报表的汇总和展示。  随着业务的发展,数据量和常用的维度都在快速的增长,以订单为例,目前常用的维度超过50个,采用关系型数据库存储,很难保证查询汇总的性能。急需一个适用于分析汇总查询的OLAP引擎。  Druid是一个开源的,分布式的,列存储的,适用于实时数据

2018-04-11 23:17:21 6820

转载 解密Airbnb 自助BI神器:Superset 颠覆 Tableau

概述我非常认同前百度数据工程师、现神策分析创始人桑老师最近谈到的数据分析三重境界:统计计数多维分析机器学习数据分析的统计计数和多维分析,我们通常称之为数据探索式分析,这个步骤旨在了解数据的特性,有助于我们进一步挖掘数据的价值。而基于我们对数据的理解,再引入机器学习的算法对数据做出预测就变得水到渠成了。现实世界里,大部分的公司更多时间其实没有这个精力去搭建复杂的数据分析平台,面对快速变化的业务需求,...

2018-04-09 19:17:06 20795 3

转载 Airbnb开源ReAir工具,提供PB级数据仓库的迁移和备份

摘要:本篇讲述Airbnb的开源ReAir工具,提供PB级数据仓库的迁移和备份。Airbnb大数据平台架构成为Airbnb公司提升产品决策的关键部分。其Hive数据仓库从2013年中旬的350 TB暴增到11 PB (2015年末统计的数据)。随着公司的成长,数据仓库的可靠性需求日益剧增。我们寻求迁移数据仓库,但现有的迁移工具要么在大数据仓库时有问题,要么就是有很明显的操作

2018-04-09 18:48:47 6449

酒店管理系统-毕业设计

酒店管理系统毕业设计,基本的功能,免费下载喔

2014-05-12

MahoutInAction中文版啦word版

MahoutInAction中文版啦word版 免费的喔

2014-03-22

hbase-0.90.5下载

hbase-0.90.5.tar.gz 分布式列式数据库 基于hadoop 的hdfs文件系统 hbase-0.90.5.tar.gz下载

2013-09-30

dotnetFx4.0fullx86x64

.net4.0框架

2013-09-30

hadoop-0.20.2.tar.gz下载

hadoop-0.20.2.tar.gz下载

2013-09-30

AjaxControlToolkit.Binary.NET4官网完整版

AjaxControlToolkit.Binary.NET4 官网完整版 免费下载 《幽灵工作室》提供

2013-06-20

oracle 10g SQL Reference

oracle 10g SQL Reference

2013-05-14

C#语言c/结构酒店管理系统_幽灵工作室提供

本系统是c/s结构的酒店管理系统 提供了系统的源码,图片,还有数据库文件 详细: 项目名称:酒店管理系统 开发方式:个人开发 开发环境:Windows 7 开发工具:Visual Studio 2010 SqlServer Management Studio 开发技术:WinForm应用系统开发 项目结构:C –S结构 数据库:SqlServer 2008 开发技术:C#、WinForm、ADO.NET 开发周期:两周,按时完成 项目描述:项目整体分为权限模块,普通用户模块和管理员模块。1.权限模块的数据库中有用户表和角色表,权限模块有用户登陆,用户修改密码,用户修改角色,用户的添加和删除功能。2.普通用户模块的数据库中有客户表和客户类型的表,普通用户模块有房间入住信息管理,可以管理房间状态,管理房间入住信息,有客户入住信息管理,可以查看入住客户信息,筛选入住客户信息,给具体某个客户增加消费,以房间为单位给用户结账。3.管理员模块的数据库中有房间表,楼层表,房间类型表,房间状态表,管理员模块具有房间信息管理,楼层信息管理,房间状态信息管理,房间类型信息管理,可以对房间,房间状态,房间类型,楼层进行增删改查,还具有修改用户角色和用户密码,添加用户的功能。

2013-05-12

consul_1.6.1_darwin_amd64.zip

consul_1.6.1_darwin_amd64.zip for mac

2019-09-26

SonarLint-3.5-for-intellj-idea-亲测好使.zip

SonarLint-3.5-for-intellj-idea-亲测好使 解压,直接打开idea的preferences,选择plugins,选择下面的install plugin form disk,选择文件SonarLint-3.5.1.2759.zip,完成安装即可

2019-08-09

spark-2.3.3-bin-hadoop2.6.tgz

spark-2.3.3-bin-hadoop2.6.tgz

2019-07-05

spark-2.3.3-bin-hadoop2.6.tgz

spark-2.3.3-bin-hadoop2.6.tgz

2019-07-05

geckodriver-v0.24.0-macos火狐插件

geckodriver-v0.24.0-macos火狐插件,帮助selenium

2019-04-05

draw.io mac版 非常好用的画图软件

draw.io非常好用的画图软件 支持各种图 mac版本 非常好

2019-01-21

mac jd-gui.app版本jd-gui-osx-1.4.0

mac jd-gui.app版本jd-gui-osx-1.4.0 亲自测试 可以使用的

2019-01-21

avro-tool-1.7.4.jar下载

avro-tool-1.7.4.jar下载,avro下载,国内下载超级慢啦

2017-03-13

openstack超级源码

openstack超级源码

2015-01-15

rolin-刘瑞的留言板

发表于 2020-01-02 最后回复 2020-01-02

asp.net中的Newtonsoft.Json.dll 是干什么的呀

发表于 2013-05-29 最后回复 2015-04-20

c#连接oracle数据库时执行更新操作无效?

发表于 2013-05-27 最后回复 2013-10-26

哪里有asp.net的PI-SDK下载呀?

发表于 2013-07-31 最后回复 2013-07-31

.net framework 3.5下开发的项目向.net framework 4.0下移植出现错误

发表于 2013-07-01 最后回复 2013-07-11

vs2010调试的时候出现service unavailable提示,部署后就不提示了

发表于 2013-07-01 最后回复 2013-07-01

C#连接oracle时,无法引用using system.data.oracleclient,在项目的引用上添加引用的时候,也是找不到这个引用

发表于 2013-05-26 最后回复 2013-05-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除