自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 mahout下的K-Means Clustering实现

一、概念介绍 K-means算法是硬聚类算法,是典型的局域原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最有分类,使得评价指标...

2017-04-24 14:50:00 99

转载 mahout下的K-Means Clustering实现

一、概念介绍 K-means算法是硬聚类算法,是典型的局域原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最有分类,使得评价指标...

2017-04-24 14:48:00 103

转载 Storm:最火的流式处理框架

诞 生   在2011年Storm开源之前,由于Hadoop的火红,整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。   有需求也就有创造...

2017-04-24 14:46:00 77

转载 华为Hbase二级索引(Secondary Index)细节分析

华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案,这在业界引起极大的反响,甚至有人认为,如果华为早点公布这个方案,hbase的某些问题早就解决了。其核心思想是保证索引表和主表在同一个region server上。 更新:目前该方案华为已经开源,详...

2017-04-24 14:46:00 153

转载 数据立方体与OLAP

  前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构,以及事实表(Fact Table)和维表(Dimension Table)的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式,而真正体现其在分析上的优势还需要基于模型的有效的操作和处理,也就是...

2017-04-24 14:46:00 117

转载 hive join

hive(0.9.0): 1.支持equality joins, outer joins, and left semi joins 2.只支持等值条件 3.支持多表join 原理 hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成...

2017-04-24 14:46:00 70

转载 Java语言提供了八种数据类型

在java中 short s1 = 1; s1 = s1 + 1; 有什么错 ? short占2个字节,int占4个字节,short型变量+上int型值计算结果是int型,占4个字节,然后付给一个short型变量s1,就要丢失2个字节的精度,这是不容许的。你非要这么做的话,我给你...

2017-04-24 14:41:00 97

转载 星型模型和雪花型模型比较

一、概述 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到“事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 ...

2017-04-24 14:41:00 84

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value...

2017-04-24 14:41:00 77

转载 JAVA 设计模式(三)

本章是关于设计模式的最后一讲,会讲到第三种设计模式——行为型模式,共11种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。这段时间一直在写关于设计模式的东西,终于写到一半了,写博文是个很费时间的东西,因为我得为...

2017-04-24 14:41:00 88

转载 java 中 volatile 关键字 的含义

在java线程并发处理中,有一个关键字volatile的使用目前存在很大的混淆,以为使用这个关键字,在进行多线程并发处理的时候就可以万事大吉。 Java语言是支持多线程的,为了解决线程并发的问题,在语言内部引入了 同步块 和 volatile 关键字机制。 synchronized 同步...

2017-04-24 14:39:00 164

转载 Java NIO与Java IO

2. 它们分别用于哪些场景? 即优点和缺点。 java io nio 区别和联系. IO NIO 面向流 面向缓冲 阻塞IO 非阻塞IO 无 选...

2017-04-24 14:39:00 62

转载 Maven插件之portable-config-maven-plugin(不同环境打包)

大的项目组中,分开发环境,测试环境,生产环境等;不同环境的配置不同,或数据源,或服务器,或数据库等; 问题来了,如何使用Maven针对不同的环境来打包呢? Maven提供了Profile的概念,用来解决此类问题,其原理很简单,就是使用变量替换;举个例子来说明,测试项目目录结构如下图所...

2017-04-24 14:39:00 79

转载 HADOOP MR架构分析 JobTracker 和 TaskTracker

TaskTracker接收到这个action列表时,会调用TaskLauncher的方法把task加入到tasksToLaunch这个list中。 TaskLauncher是一个线程,会不断处理tasksToLaunch这个llist。通过创建TaskRunner这个线程,TaskRun...

2017-04-24 14:39:00 169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除