数据识别|数据清洗
文章平均质量分 79
数据中国
数据中国是由一群致力于提高信息质量服务的年轻人创建的分享平台,我们期望通过这个平台学习和分享在数据质量等领域的经验。
展开
-
推荐系统的架构
本文从互联网收集并整理了推荐系统的架构,其中包括一些大公司的推荐系统框架(数据流存储、计算、模型应用),可以参考这些资料,取长补短,最后根据自己的业务需求,技术选型来设计相应的框架。后续持续更新并收集。。。 图1 界面UI那一块包含3块东西:1) 通过一定方式展示推荐物品(物品标题、缩略图、简介等);2) 给的推荐理由;3) 数据反馈改进个性化推荐;关转载 2015-02-09 16:31:15 · 1511 阅读 · 0 评论 -
Nutch爬虫安装向导与命令详解
Nutch介绍Nutch是一个开源的用java实现的一个搜素引擎,它包含两个部分的内容:爬虫和搜索。我们这里主要介绍nutch的爬虫部分,爬虫系统是由nutch爬虫工具Cralwer实现的,生成数据文件主要包括三类,分别是webdatabase,一系列的segment加上index,三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内,segments文件夹和index文原创 2015-04-30 10:46:42 · 3514 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.3.实体引用解析
实体引用解析实体引用解析所关注的是这样一个决策:两个引用实例是否等价,它们是否指向同一个实体?这个决策通常是通过引用的身份属性值的相似程度来做出的, 这样的做法被称为匹配(Matching)过程。当不同引用被断定为等价时,链接操作为他们赋予相同的链值。匹配(Matching)和链接(Linking)大概是ER世界中最容易被混淆的两个术语了。链接是通过将不同引用赋予相同的通用标志符链值,翻译 2015-02-06 15:00:04 · 1724 阅读 · 0 评论 -
《实体解析与信息质量》-1.2.4.实体身份管理
实体身份管理ER中另一个很重要的概念就是实体身份。根据Lim,Srivastava,Probhakar and Richardson(1993)的定义,实体身份就是该实体的一系列属性值,在特定上下问中,通过一定的无差别的规则,可以通过这些属性将该实体与其他所有同类实体区分开来。从这个定义似乎可以得出,ER过程总是可以通过对这些身份属性进行匹配来完成。然而还有以下这些原因是的直接匹配无法总是称为翻译 2015-03-06 10:54:37 · 1481 阅读 · 0 评论