自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Hadoop性能调优学习概述

目的 随着企业要处理的数据量越来越大,Hadoop运行在越来越多的集群上,同时MapReduce由于具有高可扩展性和容错性,已经逐步广泛使用开来。因此也产生很多问题,尤其是性能方面的问题。这里从管理员角度和用户角度分别介绍Hadoop性能优化的一些体会。 本文是基于Hadoop 0.20.x(包括1x),cdh 3及以上版本做介绍。(Hadoop的版本比较杂乱,具体可以看参考部分链接介绍)

2014-12-29 09:30:24 3237

翻译 《实体解析与信息质量》 - 1.2.0 实体解析过程

实体解析这一概念,最初是出现在文件清单目录比较的情景中。Fellegi和Sunter(1969),曾经在加拿大统计局工作。在工作中, 他们发现自己常常需要面对这样问题:即通过比较两个不同的清单,来去除其中的重复内容。他们将这个问题的处理过程命名为记录关联或记录链接。到了后来,关系型数据库系统开始出现,关注的焦点也开始转向找出并合并同一实体类型的所有实例(Hernandez& Stolfo, 199

2014-12-23 10:13:22 1115

翻译 《实体解析与信息质量》-1.1.3 实体和引用

实体和引用 数据建模者经常将实体关系模型中的的实例称作实体,然而,在本书实体解析的讨论背景下,我们必须明确的将之区分开:实体关系模型中的实体类型,并非真正“实体”本身。我们通常所称的实体,譬如图1.1中的“学生”实体类型的某个实例,只不过是计算机中学生数据库表中的一行记录而已。该实例仅仅是真实世界里某位学生在计算机系统中的一个引用。因此,在实体解析上下文背景中,通常认为“实体”本身并不存在于信息

2014-12-18 13:53:04 946

翻译 《实体解析与信息质量》 - 1.1.2 背景介绍

背景介绍 实体和属性的概念源自实体-关系模型(ERM)。实体-关系模型是现代数据模型的核心,同时也是数据库设计的基础。用于描述该模型的图形化的工具实体-关系图(ERD),在数据库项目的开发中,一直被认为是最重要的制品之一。关系模型最早由E.F.Codd于1970年提出,后来在1986年由PeterChen对该模型进行了优化,形成如今的ERM体系结构。在ERM模型中,信息系统被描述为一系列的实体的

2014-12-11 13:48:54 859

转载 Bitmap的秘密

转自 http://www.infoq.com/cn/articles/the-secret-of-bitmap 一、背景 a) 历史的困惑 每个技术点背后都有一系列业务的故事,透过我这次讲的Bitmap,我们可以看到历史上始终困扰营销领域的一个核心问题。著名广告大师约翰•沃纳梅克提出:我知道我的广告费有一半浪费了,但遗憾的是,我不知道是哪一半被浪费了 (翰•沃纳梅克,始创第

2014-12-09 11:42:35 1311

翻译 《实体解析与信息质量》 - 1.1.1 实体解析

实体解析 (EntityResolution) 实体解析(ER)是一种用于判断两条记录是否指向同一事物的过程。实体这个术语描述了过程的目标是真实世界的事物,比如某个人,地点或者物品。 而解析则描述了回答这样的一个问题的过程:两条不同记录是否指向了同一个真实实体? 尽管实体解析的定义描述的是两条记录之间的关系,但事实上,这个定义也可以被延伸到一个更大的记录集合上,相应的,该过程的输出则聚合了指向

2014-12-01 14:00:45 1944

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除