自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

翻译 《实体解析与信息质量》 - 本书的章节组织形式

本书的前两章分别讲述了ER和IQ的基本原则,同时还对书中使用基本的术语和概念进行了介绍,比如ER的定义,唯一参照物假设以及ER的基本规则。在第一章中,主要描述了ER不仅仅是简单的记录匹配,它更多是关于如何判断等价引用的方法和操作。本章还会介绍关于ER的五个基本步骤,分别是实体引用的抽取,准备,解析,管理和分析。ER的四种体系架构也会在这章中介绍:分别是合并清除/记录链接,异构数据库关联,身

2014-11-26 13:43:34 978

转载 腾讯千亿节点相似度计算

转自http://data.qq.com/article?id=825TDW千台Spark千亿节点对相似度计算2014-11-16分类:TDW        相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架

2014-11-26 08:51:41 3417

翻译 《实体解析与信息质量》- 创作动力

实体解析(ER )和信息质量( IQ)是信息科学领域的两门新兴学科。我寄望这本书能够为该领域不断增长的知识储备做出一定的贡献。我觉得参与发起一门新兴学科是一件很有意义的事情,籍此来组织信息质量学科的第一个研究生学位课程,则犹如一段令人兴奋的旅程。这其中的一个重要挑战,便为学生们寻找合适的书籍和学习资源, 因为关于这些主题大学水平的教科书实在是少之又少。 比如《Introduction to I

2014-11-24 13:49:11 1193 2

翻译 《实体解析与信息质量》 - 序言

实体解析是基于一组模糊的线索,识别出某条记录有多大概率为某个现实实体的过程。纵观整个历史,人类一直在不断地进行着各种实体解析的不同尝试。早期人类通过观察动物的脚印来识别出是哪种动物留下的足迹。后来,人类运用专业领域知识,通过观察鲸鱼喷出的水柱形状,来确定其是否属于可猎杀的鲸鱼种群。在二战期间,英国分析师仅仅通过电报员的“拳头”,发电报的时间以及电报员键入摩斯密码的方式,就能识别出是哪一个德国无线电

2014-11-20 13:27:28 1072

翻译 《实体解析与信息质量》 - 目录

目录 封面目录扉页实体解析和信息质量版权对这本书的赞誉前言序言编写本书的动机读者对象本书的组织结构鸣谢1.实体解析的基本概念什么是实体解析实体解析的活动总结问题回顾2.信息质量的基本概念什么是信息质量信息质量和信息品质两个信息品质的例子

2014-11-18 10:02:50 1336

原创 中文相似度匹配算法

基于音形码的中文字符串相似度算法背景介绍字符串相似度算法是指通过一定的方法,来计算两个不同字符串之间的相似程度。通常会用一个百分比来衡量字符串之间的相似程度。字符串相似度算法被应用于许多计算场景,在诸如数据清洗,用户输入纠错,推荐系统, 剽窃检测系统,自动评分系统,以及网页搜索和DNA序列匹配这些方向都有着十分广泛的应用。 常见的字符串相似度算法包括编辑距离算法(EditDista

2014-11-14 10:39:31 65283 26

原创 数据质量与信息质量

数据质量VS信息质量 最近在阅读的时候一直对数据质量和信息质量这两个词非常的困惑,Google之后对它们的区别做了一个整理。数据是数字化的事实,比如考试分数为95分。所以数据质量的第一要素为正确性,如果95分被错误地输入为65分,那就会称为Bad Data。数据质量的另一个关注点是数据和所定义的数据规范之间的一致性,我们希望收集用户的地址信息,但返回的是用户地址的经纬度,即使非常准

2014-11-13 13:33:10 2699

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除