对于微软学术搜索的评价——陈稳霖

首先我要对IEG学术搜索小组的实习生同仁表达敬意,你们的付出历历在目。我在IEG也呆了三个月,做的是旅游指南项目,虽然现在转组了,但是对IEG很有感情的。学术搜索是个很棒的网站,我一开始用就很喜欢,也一直建议我朋友也用。但是既然作业中必须要讲缺点,那我只好说出我的想法,在下才疏学浅,以下观点纯属自己粗浅的想法,如有异议或者建议,请发我email: v-wenc@microsoft.com,谢谢。大家都是为了让微软学术搜索能够成功,得到广泛好评:)

a. 微软学术搜索的三个优点和四个缺点

        首先讲优点,第一个优点,就是Microsoft Academic Search建立了各种分类,比如Organization, Domain等。搜索的维度比较丰富,可以根据维度多,可以根据paper, organization, author等来搜索。第二个优点就是建立了domain中研究人员的排名或者Organization的排名,这个有点耳目一新。第三个优点就是建立了每个作者的个人主页,同时还有co-author的关系图,关系图的动态效果蛮好的。

        其次讲缺点。第一个缺点就是数据不够全,领域不够多。现在大部分Domain仅仅涉及了计算机领域,对其他领域数据或者作者的采集不多,使得这个学术搜索无法推广到其他领域。第二个缺点就是数据的错误。我搜索过几个教授,发现有教授所属Organization错误的,或者co-author错误的,paper错误的,关系网错误的等等。还有就是有些教授的照片显示不出来,我点过教授的个人主页,他们是有照片贴上去的,但是在Microsoft Academic Search上面却显示不出来,希望IEG要加大对网页分析,尽量把正确又全的数据crawl下来。

        第三个缺点,下载不够方便,需要点击到其他网站的链接才能下载,这个是很不好的UX。我知道Microsoft Academic Search是考虑了版权的问题,但是如果是我的话,我会去从教授的个人网页上Crawl论文的PDF链接,直接提供在Microsoft Academic Search板面的下载服务,但是要注明一下该资源是哪里的,Google Scholar就是这么干的,人家行,为什么咱们不行。而且对于中国用户,打开国外的网站速度很慢,论文的PDF文件放在国外专门下载网站上,对中国用户是无法忍受的。试想,我要搜索Paper,我到Google上搜一下(无需Google Scholar),直接有PDF的下载,我干嘛还要来Microsoft Academic Search呢。

        第四个缺点,也是我想重点讲的,不算是技术上的缺点,而是Search Engine Optimization问题,我觉得更是Microsoft Academic Search策略上的问题,可能IEG已经有所重视了,那就当我废话吧。总体来讲,Microsoft Academic Search有很多Google学术搜索没有的亮点,也可以说是技术创新点吧,但是我们做网站要的是能够推广到广大用户,说白了,我们就是要争取流量。一个好的产品很少人用那就是不成功的甚至是失败的产品。那么用Microsoft Academic Search的只可能有两种人,第一种是本来就知道这个网站的人,并且是被这个网站吸引的常客,第二种就是到Bing去搜索paper,然后被引导到这个网站的人,而通过Google和百度搜索Paper的人绝对不会被引导到Microsoft Academic Search。以下是我的分析,我到Bing上搜索Paper, Microsoft Academic Search的排名一般很高,都能出现在搜索页面的第一面。但是,我到Google和百度上搜索PaperMicrosoft Academic Search根本排不上,我翻到第10面了还是没有,试问,用Google和百度的用户那么多,但我们的Microsoft Academic Search却排不上号,这么庞大的流量直接浪费掉。在没有优化搜索引擎之前,Microsoft Academic Search想增加流量的话只有两种途径:第一,增加第一种人流量,那就是去各大网站各大高校打广告,这个要耗费很大财力和人力,且效果不一定好;第二,增加第二种人流量,更不可能,现在Bing虽然在发展,但是增加Bing的用户流量短时间内没戏,MSRA也管不了。

        综上所诉,最有可能增加流量的只能是从Google或百度引导流量过来了。可是Microsoft Academic Search不知咋搞的,居然居然没有让Google把整个网站的所有网页Crawl下来,只CrawlOrganization这个页面的,以下是我的证据:

 

(用户权限原因上传不了图片,大体就是在Google输入框中输入site: academic.research.microsoft.com以测试Google爬了哪些网页)

 

请看上图,我试着在Google上查到底Google爬了Microsoft Academic Search上的啥东西,为啥Microsoft Academic Search的排名一直上不去,结果发现,Google爬下来的东西只有Organization

 

(用户权限原因上传不了图-_-!

 

请看上图,我翻到55面了,都还是只有Organization。我试着去分析Microsoft Academic Search的主页,首先,Publication, Author, Conference, Journal, Organizationdomain这几个tab是随机选取的,我猜是不是Google来爬的时候刚好随机到了Organization了,然后可能是该网站用JavaScript写的原因,导致其他链接无法被Google分析到,所以爬不到。总而言之,第一,网站要能被搜索引擎引导过来,第二,网站要能够留住被引导过来的用户。第二点我相信Microsoft Academic Search肯定可以做到,独特的技术创新,好的UI,肯定留得住用户。所以我希望Microsoft Academic Search能够加大对SEO的投入,这才是吸引顾客的最佳手段。

 

b. Google Scholar相比,总体评价是什么?这类项目技术难点在哪?有什么更好的解决方案?

首先,我的总体评价是良好。第一,UI涉及比Google好多了,更加友好。第二,有各种领域分类,排名,机构等,还有个人主页,关系图,这些都有很好的加分作用。缺点就是我刚刚讲的,不能直接下载,还有SEO做得不够。

这类项目的技术难点,依我看,有如下几方面:(在下才疏学浅,可能有些实际中不是难点)

1.      Internet上搜索各个教授或者研究员的Homepage,因此要有一个判断标准,什么样的url以及htmlPersonal Homepage. 其次即使判断了Homepage,每个主页的html格式可能不一样,对各项(如Paper, Publication)等叫法不一样,还有网页上的图片到底是教授自己的还是其他人的,很多人喜欢往个人主页贴家庭图,搞不好会把人家baby的图贴到Microsoft Academic Search上。所以需要强大的Crawler和网页分析器。

2.      关系网络图的实现,怎么用高效的算法来从Paper中的Author列表建立庞大的网络关系图

3.      排名的标准,Microsoft Academic Search有各种排名,标准如何制定

4.      从各个网页上爬下来的人名应该会有一些重合的,比如有两个人都叫Wenlin,那在分析或建立个人网页或者co-author的时候,就存在一些问题。还有作者的单位可能会有变动,怎么进行实时跟踪并且又准确定位

 

c. 如果你是项目经理,项目团队有12人,对此项目将来一年的发展如何规划?

1. 可能会做一下user study,了解一下用户希望有哪些功能,以及评价

2. 继续做SEO

3. 可能添加一些功能,比如根据论文时间排序,引用数等

4. 扩大领域,比如往物理、化学、经济等,增大数据量

5. 加大推广

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值