微软学术搜索项目 10个版本的历程

最新推荐文章于 2020-08-25 22:13:54 发布

depx7366

最新推荐文章于 2020-08-25 22:13:54 发布

阅读量2.1k

点赞数

文章标签： javascript ui c# ViewUI

原文链接：http://www.cnblogs.com/xinz/archive/2012/02/20/2358888.html

版权

这是我在微软亚洲研究院参与的项目之一, 从 2009 年秋天开始, 我们小组把它从一个研究原型发展为涵盖全学科的学术搜索门户。它索引了 4千万论文, 2千万作者, 6 大实体类型, 8 种数据可视化功能, 具有开放的API 平台和手机客户端.

下面说说项目的发展:

2009/8: 内部发布 alpha 版本, 以验证想法为目的的 V1 结束, 数据量: 3 million

2009/9: 开始V2, 研究员和工程人员合作规划项目的目标，远景，阶段，典型用户；决定代码管理，项目管理 (都用 MS TFS 管理).

决定 V2 着重于 Computer Science 领域

决定系统的特点在于展示六大实体及其关系（作者，论文，机构，期刊，会议，关键字）, 并把这些实体和关系投影到学科, 时间, 地点维度上来展现。

典型用户有哪些? 我们描绘出三种典型用户。

    Mary: 资深科学家 – 痛苦: 招人，分析学科趋势及大量的学科数据，主持国际会议和合作，从学校/机构的层面比较各自的科研产出和动向。

    John:   刚出道的科学家 – 痛苦: 指导学生工作, 收集最新科研资料，组织会议, 让别人了解自己的科研成绩

    小勇:   想走上学术道路的大学生, 研究生 – 痛苦: 找资料, 读论文, 申请出国, 投稿

项目计划的一个重要方面是核心价值是什么, 决定不做什么 - 我们决定不和其它学术搜索比拼“论文下载”这一功能，就是说, 如果用户的唯一目的就是要下论文, 我们系统不是最好的。

决定采取 8 周为一个里程碑 (Milestone) 的开发周期, 采用 MS Agile 的思路。 [2 周计划；4周实现；2周测试并上线 ]

人员: 研究员 + 软件工程师 8-9 人; 全职PM 一名; 加上实习生数名, 几个外包团队的测试人员。

开始联系出版社商讨合作

在西格玛4层的水房开了 V2 kick off 会议。

市场上已经有各种学术搜索服务, 作为一个后来者, 我们怎么创新? 我们的红旗能打多久? 我们到底要做什么? 要怎样展现各个实体之间的什么关系? 我画了一个表:

Relation	author	paper	conf/journal	organization	keyword
author	co-author citation 6-degree path	paper list	top authors	author/org rank	author research interest
paper		related paper ref paper	top papers	top papers from this org	highlight keywords in a paper
conf/journal			CFP calendar	top org in a conf/journal	focus of conf/joural (tag cloud)
organization				org rank list	research area of an org
keyword					taxonomy, related keywords

2009/12: V2M1 （第二版第一里程碑）发布

数据量达到 4.5 million

收集基本的 precision/recall 数据, 计算 F-Score， F-Score 那是相当的低啊…

改进用户信息的展现

完善　高级搜索 (advanced search)　功能

和一著名出版社见面讨论，　对方貌似很愿意合作，我们都没想到这是漫长等待的开始…

里程碑结束后开了事后诸葛亮会议, 看出来大家对以用户需求为驱动, 快速发布的软件有各自不同的理解。

2010/3: V2M2 发布

数据量: 5.2 million

展现实体的详细数据/详细页面

改进数据可视化

进行一系列可用性的改进

和我司的搜索引擎部门商量合作

为了让大家对数据质量有更切身的认识, 每个人在春节期间审核并修改了几十个作者的信息。

2010/5: V2M3 发布

数据量: 5.7 million

重新进行整体页面设计（蓝色基调）, 并在这个里程碑推出。这成为以后所有UI的基础。

推出了第一版的 call for paper calendar。

其它改进

随着系统的运行, 大家看到了系统的几个核心问题, 研究员开始攻坚。

不就是做一些网页功能么? 有什么难的? 一个新成员说某功能两天就可以搞定, 后来搞了两星期, 把一个模块活生生搞垮了, 后来，就没有后来了…

2010/7: V2M4 发布

数据量: 6 million

大幅改进数据抽取的质量 (pdf meta data extractor)

数据/逻辑/UI层面都实现了 Organization/机构这一实体, 机构成为一级实体 (有自己的主页, 各种详细数据, 排名, 等)

改进了用户编辑功能

重写了后台的数据流水线 (data pipeline) 模块。

参加了在雷镇研究院 faculty summit 的展示, 反响不错, 但是大家觉得数据不够多。

通过这一阶段的实践，分析我们的商业运作能力, 研究能力，架构, 人员能力, 其他竞争对手的比较, 我们明确应该在下面的各个层次上做不同的竞争:

    a) 数据层次: 和最全的对手差别缩小到20% 左右

    b) 算法层次: 和最好的相比不相上下

    c) 功能层次: 完全超越所有对手

2010/9: V2M5 发布

数据量: 7 million

可视化功能: 作者之间的关系图 (co-author path)

支持 facebook, twitter 的集成 (后来发现用的人不多… )

改进各项功能

向公司领导展示了项目的进展 (并搜索到了领导当年写的论文)

2010/12: V2M6 发布

由于项目的复杂度增加, 项目周期改为 12 周

推出独特功能 –

citation context, 别人是怎么评说一篇论文的。

学科发展趋势图

改进了作者名字消歧的算法，但是这个问题还是很难。

改进用户反馈功能

改进了整个数据处理流程, 达到两周一次的数据更新。

（尝试了学术家族树这一功能，但是效果不够好, 没有集成到公开的系统中）

数据量: 7.6 million

应某部门的要求，我们把界面色调改得像它的孪生兄弟一样 (橘黄色)。有意思的是, 此部门后来一直在思考中, 并未采取行动 …

2011/3: V2M7 发布

增加了 Keyword （关键字）这是最后一个实体。

发布了 Academic Search API，让学术界能通过API 使用我们的元数据，开发他们自己的应用。

独特的可视化功能 – Author Citation Graph

Call for Paper 和其它一系列功能的改进

和一个出版社的协议生效并且数据上线了, 数据量: 15.7 million . 其余的出版社还是讨论中。

V2 订下的目标基本实现（计算机领域的全文本数据还是在痛苦地等待中）。开始V3, 向全学科领域进军

由于项目的绝大部分模块都进行了大规模的工程性重构，重写。有些问题太难 (), 研究员们逐步撤出了项目。

2011/6: V3M1 发布

新的领域扩展到 9 个

推出独特功能 -

背靠背比较研究机构 – organization comparison

关键字 - 支持关键字的变体

改进已有功能，在用户编辑模块提供 “修改历史”信息

为了充分展示各学科内容, MAS独创的两级homepage 组织结构隆重登场.

工程师继续改进名字消歧的算法 - 即使难, 也要迎着困难上啊。

我让清华《现代软件工程》班的同学根据 API 写一个 iPad 上的程序, 一组同学做了一个, 但没有发布…

随着项目的成熟, 如何让项目可持续地发展成为一个问题, 我们和雷镇的另一部门商讨如何更好地进行商业运作。达成了初步协议。

数据量: 27.1 million

大家对敏捷开发的流程也逐渐熟悉, 这是其中一个里程碑的工作项 (work item) 看板图。在每次史克朗茻 (SCRUM) 会议时, 大家就更新墙上自己负责的任务。

2011/9: V3M2 发布

新的领域扩展到 17 个

推出独特功能 -

    独特的排名选项可以让用户用多种方式给作者排序。

    从美国 Harvey Mudd 学院来的实习生很快就完成了学术地图这一功能。

    Windows Phone 的客户端发布 (link)

很多小型出版社和我们达成了合作协议，最重要的出版社还在最后关头…

随着项目逐渐成熟, 知名度提高, 我们需要计划如何把 beta 产品转化为正式产品, 我们和一些其他部门商讨并达成初步共识。

项目的名声也大了, 黑客用他们独特的方式告诉我们网站有漏洞。

数据量: 35.3 million

2011/12: V3M3 发布

完成了全学科所有子领域的定义, 期刊/会议的学科归属，产生 15 个一级学科

推出独特功能 -

    学术家族树 (经历上次失败后, 中科大的同学再次努力, 终于上线)

    可视化功能 - 论文引用图 - 这是和另一个研究小组合作的结果

    wp7 手机客户端增加对学术会议的支持 (正在走上线流程)

对所有代码进行了安全检查和修复

CS 领域的重要出版社终于和我们达成了合作协议! 我们等了两年的时间…

数据量: 35.3 million, 总数量不变, 但是全文本的数据比重大幅增加。

越来越多的学术界同行申请使用学术搜索 API

收到好评不少, 例如:

    It’s been a very impressive year for Microsoft Academic Search.

    Not only did the index experience major growth during the past 12 months but the Academic Research team launched a new interface and added several new tools including several that allow users to visualize data…

当然竞争对手也没闲着…

2012/1-3 service pack 阶段

重点放在如何把项目移交给另一部门

形成了有规律的数据更新周期。

进行文档整理和规范化工作

姓名消歧工作又经过几个月的努力, 得到大幅改进， “Zheng Lei”这样的名字也得到不错的处理, 不会出现一个“Zhang Lei”写了几千篇论文的滑稽情况。

根据用户反馈和自身计划, 改进各个模块的质量

对CS， Engineering 领域的论文覆盖率大大提高。

数据量: 38.8 million

访问数据: 平均每月 1百万独立IP 访问, 其中 60% 来自美国; 超过60 个合作伙伴使用我们的API 进行各自的研究。

模块: 元数据抽取, 离线处理, 数据库, 论文集成，作者名字集成与消歧，数据索引, 网站, API， wp7 客户端, 测试工具, 内部编辑复审工具, log 工具。

代码量: 34万 (C++， C#, asp.net, javascript, silverlight, SQL)

代码量不包括空行, 注释, 只有一个字符的行。

——————————————————————————————————————————————————

微软学术搜索介绍

微软学术搜索（Microsoft Academic Search）是微软研究院开发的免费学术搜索引擎。它为研究员、学生、图书馆馆员和其他用户提供了一个更加智能、新颖的搜索平台，方便用户查找学术论文、知名学者、国际会议、权威期刊等信息。同时，微软学术搜索作为一个研究试验平台，展现了研究院在对象级别垂直搜索、命名实体的提取和消歧、数据可视化等研究领域的最新研究成果。

作为一个研究原型，微软学术搜索覆盖的学术内容仍比较有限，我们衷心感谢您的反馈与贡献。您可以通过Twitter 关注我们，或者加入我们的论坛。

主要功能 - 搜索

要实现基本的搜索功能，只需简单地输入关键词，然后单击搜索按钮。

微软学术搜索不仅仅涵盖计算机科学，而且已经逐步扩展到其他学科，您可以通过指定感兴趣的学科领域来缩小搜索范围，快速找到所需论文。

例子：输入关键词；点击"All Domains"按钮；从下拉表中选择一个复选框，可将您的搜索范围缩小到指定学科。

如果您有更为具体的搜索条件，您可以使用高级搜索，以提高搜索的准确性与有效性。点击“高级搜索”（Advanced Search）并输入以下选项的具体值：作者、会议、期刊和年份。

例子：查找1999年之后发表的与"data mining"相关的论文，输入关键词并设置年份。

用户参与编辑

微软学术搜索允许用户在线修正数据。如果您发现作者的资料、论文的资料有误，或是我们提供的信息已过时，您可以直接在网上进行修改。微软学术搜索目前支持修改的数据项包括：作者的基本信息，如姓名、所属机构、头像及个人主页；论文的基本信息；上传论文；确认论文归属等。您的修改经编辑验证后将更新在网页上。如果您有其它修改需求，请与我们联系。我们致力于提供最新、最准确的学术信息，期待您的参与。