《实体解析与信息质量》 - 序言

实体解析是基于一组模糊的线索,识别出某条记录有多大概率为某个现实实体的过程。纵观整个历史,人类一直在不断地进行着各种实体解析的不同尝试。早期人类通过观察动物的脚印来识别出是哪种动物留下的足迹。后来,人类运用专业领域知识,通过观察鲸鱼喷出的水柱形状,来确定其是否属于可猎杀的鲸鱼种群。在二战期间,英国分析师仅仅通过电报员的“拳头”,发电报的时间以及电报员键入摩斯密码的方式,就能识别出是哪一个德国无线电报员。

二十世纪中期,人们开始应用计算机来解决实体解析过程中的问题。例如,实体解析技术被用来处理和分析美国人口普查记录。再比如早期的直销行业开发了一套合并-清洗系统来识别个人和家庭实体。计算机的运用使得我们可以处理更多的数据,但前提是要把这些探索经验以及专业知识转化成计算机能够执行的算法。

一直以来,直销行业便是对有效的实体解析极其感兴趣的行业之一。Acxiom公司为直销行业提供了许多实体解析服务,并且开发了许多工具和算法来解决其中的问题。在当时,很多关于如何有效地应用计算机解决实体解析问题的知识都是零碎和分散的。举例来说,正如对产品质量的评估,判断两个实体相似或不同的标准,不同团队之间也有不同定义的。同样,从技术的角度来看,在数字数据中提取线索的策略和技术,包括可能的转换来纠正或优化提取的线索,往往直接取决于个人经验,解析匹配算法的实现也是因人而异。虽然一些论文已经发表了相关的技术,但是大部分的知识还是掌握在实践者的手里。尤其是在商业领域, 这些知识往往被视为商业秘密或竞争优势而被精心守护着。

我在1996年加入Acxiom公司的时候认识了John Talburt。1997年,约翰和我以及其他几个Acxiom的同事,开始着手创建一个集所有关于姓名和邮寄地址实体解析的经验和知识于一体的实体解析系统,即后来被命名为AbiliTec™的系统。AbiliTec™项目启动时,大部分团队成员都不了解实体解析也没有相关方面的经验积累,我也是其中之一。现在回想起来,如果当时能有一本全面介绍实体解析的书籍,对我们来说会是弥足珍贵。

我很高兴的是,John写了这本书来填补这方面的空白。John是唯一有资格写这本书的人,他不仅具有构建重要的现实世界的实体解析系统(例如,AbiliTec™)的实践经验,同时也具有强有力的学术背景来解释和统一实体解析理论。在这本书中,John系统的介绍了实体解析,定义和澄清了那些一直以来模糊且容易让人混淆的术语。这本书将实体解析转变为一门学科,而不仅仅是技术工具箱。John还将他的数据质量方面的专业知识运用到这本书中。数据质量和实体解析密切相关,John,以及来自MITRich Wang,促成了阿肯色大学小石城(UALR)信息质量计划。这是世界上第一个关于实体解析的项目,也是信息质量领域的第一个。

我是在2010911- 9.11恐怖袭击的周年纪念日写这篇序言的。这使我不禁深思实体解析技术从最早期的合并-清洗的日子开始是如何不断扩大和发展的。继恐怖袭击之后,美国政府开始研究如何利用实体解析技术来防止此类攻击。而如今,政府关于实体解析技术的研究,已经不仅仅限于受雇于安全机构,同时也涵盖了那些在商业领域,例如博彩业以及直销行业等的应用。

即使在他订婚的那段时间, John仍然在和政府从事这方面问题的研究。

在当时,大部分的实体解析研究重点都是分析个人的直接属性(如姓名,地址,出生日期等),但是随着我们的研究越来越深入,就发现我们应该更注重在人与人之间的联系,以及如何利用这些联系来帮助识别个人以及群体。

通过人与人之间的联系来解析数据,这已经不仅是安全和执法工作的重点,同时也是社会网络分析的关键。事实上,因特网上的各种应用的大量涌现为实体解析带来了许多新的挑战。早期的直销行业所研究的重点,仅仅涉及那些邮寄地址上名字已知的人。如今,在互联网的世界里,人们越来越多地由多个昵称或角色为人所知,并且通过虚拟地址相联系。这需要新的实体解析技术。例如,基于浏览指纹(例如,客户机的IP地址,机器的操作系统,以及浏览器的版本)来解析匿名的实体(例如,游客访问了一个网站)便是一个很有趣的挑战,同时也是一个很活跃的工作领域。这样的案例同时也带来了关于隐私问题在实体解析中如何解决的讨论。同样的,大力支持私有数据在互联网上(如信息卡)选择性曝光和分布式认证(如OpenID的),使得实体解析更加复杂,同时也要从技术和政策的角度拓展实体解析的讨论。这本书不仅可以提供这些努力的背景,也帮助我们进行组织和框架化的讨论来促使实体解析的不断发展。

Terry Talley

2010.9.11


-----------------------------------------------

1. 本译文未获原作者授权,仅用于个人学习用途。原版购买地址如下

http://www.amazon.cn/gp/product/0123819725/ref=fs_rd_1

2. 转载请注明出处。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。【项目资源
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值