自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (4)
  • 收藏
  • 关注

转载 Spark技术内幕:SortBasedShuffle实现解析

Spark技术内幕:SortBasedShuffle实现解析来源:IT165收集  发布日期:2015-01-05 23:36:12在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager 从hash换成了sort,对应的实现类分别是o

2016-01-30 22:51:45 1316

转载 Reservoir sampling(水塘抽样)

Reservoir sampling(水塘抽样) 题目1:给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。对于复杂问题一定要学会归纳总结,即从小例子入手,然后分析,得出结论,然后在证明。不然遇到一个抽象问题,不举例感觉这个问题,直接解还是比较难的。对于此问题的难处就是数据流

2016-01-30 12:19:58 9236 4

转载 Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统

Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统本文旨在通过具有实际意义的案例向读者介绍如何使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时的数据处理系统。内容将涉及数据产生,数据读取,数据处理,结果存储等数据系统处理的基本环节,也会提出一些开放式的问题,供读者一起讨论。10

2016-01-29 16:31:59 4519 1

转载 Hadoop平台架构--存储篇

Hadoop平台架构--存储篇By whoami 发表于 2016-01-25文章目录1. 简介2. 走向分布式3. 存储规划4. HDFS目录规划4.1. linux os目录规划4.2. linux主机名规划4.3. hdfs目录规划4.4. 计算框架临时目录4.5. 存储格式选择和效率如何权衡?5. 结束语刚刚开始使用Hadoop集群的时候,目

2016-01-29 13:41:54 8441

转载 HDFS缓存管理操作实战

HDFS缓存管理操作实战Debugo2014-12-21 232 阅读HadoopHDFSSystemHDFS提供了一个高效的缓存加速机制——Centralized Cache Management,可以将一些经常被读取的文件(例如Hive中的fact表)pin到内存中。这些DataNode的缓存也是由NameNode所管理的(NameNode所管理的cache依然

2016-01-26 13:40:21 3357

转载 CDH集群调优:内存、Vcores和DRF

CDH集群调优:内存、Vcores和DRFyurnom2015年08月07日1条评论1,124次浏览吐槽最近“闲”来无事,通过CM把vcores使用情况调出来看了一眼,发现不论集群中有多少个任务在跑,已分配的VCores始终不会超过120。而集群的可用Vcores是360(15台机器×24虚拟核)。这就相当于CPU资源只用到了1/3,作为一个半强迫症患者绝对不能容忍这样的事

2016-01-25 10:49:55 6604 1

转载 Sqoop源码分析(一) Eclipse调试Sqoop各种异常解决

1.ERROR tool.ImportTool: Encountered IOException running import job: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory /tmp/datas/sqoop already exists at org.apache.hadoop.mapr

2016-01-18 15:27:58 2564

转载 基于Spark MLlib平台的协同过滤算法---电影推荐系统

基于Spark MLlib平台的协同过滤算法---电影推荐系统        又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。    说到推荐系统,大家可能立马会想到协同过滤算法。本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容:协同过滤算法概述

2016-01-17 16:38:55 4069

转载 FP-Tree算法的实现

在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:

2016-01-16 12:17:13 2696

转载 FP-growth算法,fpgrowth算法详解

FP-growth算法,fpgrowth算法详解使用FP-growth算法来高效发现频繁项集前言你用过搜索引擎挥发现这样一个功能:输入一个单词或者单词的一部分,搜索引擎酒会自动补全查询词项,用户甚至实现都不知道搜索引擎推荐的东西是否存在,反而会去查找推荐词项,比如在百度输入“为什么”开始查询时,会出现诸如“为什么我有了变身器却不能变身奥特曼”之类滑稽的推荐结果,为了给出这些推荐查询

2016-01-15 08:40:32 81234 10

原创 clouderamagner 中hue 工作流调用sqoop1 问题处理

处理sqoop 执行每次输入密码问题 1.在clouderamagner sqoop1 的配置文件进行同步2.将worker5 上执行提示找不到mysql jdbc 驱动 3.在worker5 将mysql jdbc 驱动复制到目录下/usr/share/java

2016-01-14 11:00:23 3908

转载 Spark MLlib FPGrowth算法,mllibfpgrowth

Spark MLlib FPGrowth算法,mllibfpgrowth1.1 FPGrowth算法1.1.1 基本概念关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的相关术语如下:

2016-01-11 18:30:05 1730

原创 errors in crontab file,can't install

"crontab.XXXXAJ45tv" 65L, 3658C writtencrontab: installing new crontab"/tmp/crontab.XXXXAJ45tv":56: bad minuteerrors in crontab file, can't install.Do you want to retry the same edit? Ente

2016-01-11 09:48:24 15661 1

转载 如何计算Java对象占用了多少空间?

在Java中没有sizeof运算符,所以没办法知道一个对象到底占用了多大的空间,但是在分配对象的时候会有一些基本的规则,我们根据这些规则大致能判断出来对象大小。对象头对象的头部至少有两个WORD,如果是数组的话,那么三个WORD,内容如下:对象的HashCode,锁信息等到对象类型数据的指针数组的长度(如果是数组的话)规则首先,任何对象都是8字节对齐

2016-01-10 17:46:56 1462

转载 Hadoop/Yarn/MapReduce内存分配(配置)方案 .

以horntonworks给出推荐配置为蓝本,给出一种常见的Hadoop集群上各组件的内存分配方案。方案最右侧一栏是一个8G VM的分配方案,方案预留1-2G的内存给操作系统,分配4G给Yarn/MapReduce,当然也包括了HIVE,剩余的2-3G是在需要使用HBase时预留给HBase的。Configuration FileConfiguration Settin

2016-01-10 17:04:33 610

转载 HDFS源码分析(9):DFSCliet

HDFS源码分析(9):DFSCliet前提Hadoop版本:hadoop-0.20.2概述在上一篇文章中HDFS源码分析(8):FileSystem已对Hadoop的文件系统接口进行了简单的介绍,相信读者也能猜到HDFS会对外提供什么样的接口。为了让读者对HDFS有个总体的把握,本文将对DistributedFileSystem和DFSClient进行分析,这两个

2016-01-01 17:27:34 827

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅱ.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007-11-21

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师上午试卷.doc

2007-11-21

2007年下半年系统分析师考试试题分析.doc

2007年下半年系统分析师考试试题分析.doc

2007-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除