再说机器新闻的分类和聚类::[Search Engine]

Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。

想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的新闻做的越来越好,我这边的一些想法正在着手实现的时候,Google新闻总是非常意料之中的做到了。


我记得我第一次看到Google新闻首页出现这样的标题错误时,心里在想,Google并不难超越么,因此立此存照,保留了快照,4个月后,Google的新闻的准确度和灵活性已经完全不可同日而语了。

1] 个人新闻门户
改变以往的千人一面的新闻门户是机器新闻的目标,我几个月不上新浪的原因是我不想打开一个有90%内容我不关心的新闻网站。我会看些我订阅的Rss,例如Klog,Keso,Mao等,我这样偷懒的原因是简单的,因为这些人可以进行先期的过滤,将好的新闻/信息已经收集了起来,而降低个人获取信息的难度。

2] 定制+搜索
Google不提供Rss是完全可以离解的,因为Rss实在是把现有的搜索引擎,新闻聚合系统的技术难点降低到了极限,而这些在传统技术中都是Google的长处,Google是一个网络机器,它说实际并不喜欢用户离线的活动。但是,Google的定制和搜索加Email后也是我每天必修课,原因也是我只关心我订阅的一些内容,而这种直接送到google邮箱的做法,仍然是提高Google的粘合力的一种非常有效的做法。

3] 内容
Google 已经成为一个完全监控我们社会内容的永动机。我在Gmail里的260M的Email,包括文档,论文,程序,我曾经有过这样一次经历,给一个另外搜索引擎公司的CEO发email,使用的是我的gmail帐户,但是那封信却以技术故障的原因莫名其妙的没了,这件事情后我开始对Google留了一手,自己的代码不再用google email来备份了。我们在创造内容,我们有机器在监视内容,我们的计算机已经聪明到能够识别这些内容,然后呢?

4] Info Grid 信息网格
Peter Norvig(现在是Google搜索引擎的产品部的总监)的《网络上的人工智能》AI on Web一书上举了大量的演化的例子,我非常佩服这个思维严密的老兄,因为AI常常被一些哲学和数学家的人嘲笑为智商只有75的阿甘。他们可以随便找出一个AI系统的漏洞,可是这些数学家和哲学家仅仅是嘲笑而已,当他们在嘲笑别人的时候,AI 却一步一步的发展,直到现在连嘲笑AI的人也在每天享受人工智能的进步。

Info Grid是将现有信息分布在不同层次,不同类型,不同应用的各个点上进行有机的联接,再整理的一种思想。Info Grid的表现很多,例如Google News已经是一种信息格点的雏形,这种信息格点将不同点上的内容「新闻」进行收集,然后加工,按照阅读者的需要,以相对智能的方式推送到读者面前。

然后呢?然后再根据读者点击,阅览新闻,资料的习惯『注意,我们实际上是在各种网站的监视下的,例如上google搜索,google会纪录用户的点击』进行整理,最后得到了用户行为模型,得到用户的心理,最后调整系统推送给用户的内容。

有一天,当你连续三天点击了姚明的新闻后,你打开的google的首页上也许有令你咋舌多的姚明的新闻,不要慌,这就是user behave driven modle。

5. Exit,出路在哪里?
Google阴影下的出路在哪里?这个大概不是我来提问,应该是Baidu和Yahoo之类的大玩家。当然,大玩家有大玩家的打算和想法,至于小玩家,出路恐怕就在long tail上了,Long Tail 最近是一个很热的词,连Google都说自己是Long Tail了。Google如果是Long Tail,那么谁是Bulk Body呢?

唠叨了这么多,都离题万里了,回头还是要下功夫来做。

Posted at March 10, 2005 05:17 PM by Liang at 05:17 PM | Comments (2) | TrackBack(0) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/735

Comments

第 1 楼:

GOOGLE这次所做的利用用户定制的关键词给出个性新闻至少10年前就做到了!和NEWSALERT没什么不同,一个在EMAIL上一个在WEB上。

真正意义上的个性化新闻也许也就是你所说的利用收集用户的阅读习惯给出相关新闻,MSN NEWSBOT在做,但做的不好!

这里边有一个问题是每个人看新闻的风格不同,如果都是象您一样,只看某几方面的新闻,很有针对性,那很容易实现这个功能,相信准确性也不会差。但对于很多中国人来说,他们进行新闻浏览的时候是盲目的,而盲目的浏览势必带来过多的噪音!

就好象自动分类一样,实际上是一个训练的过程,当人变成了为训练机器的一个机器那么阅读新闻的乐趣也就没有了!

Posted by: cultboy at March 11, 2005 06:58 AM from 61.135.146.217

第 2 楼:

上次在cnet看到了一個有趣的報導,說著在flickr和google都掛著永遠的beta版,網路服務不再像以往的軟體業經過嚴密的測試後才銷售給使用者,而是藉由廣大的「試用者兼使用者」來慢慢吞食他們的市場。
我想這應該也不算是新聞,linux當初崛起的歷史,甚至現在許多distribution,也都是如此這般運作的。

Posted by: jimmy at March 11, 2005 08:13 AM from 220.135.92.72

<script type="text/javascript"> <!-- document.comments_form.email.value = getCookie("mtcmtmail"); document.comments_form.author.value = getCookie("mtcmtauth"); document.comments_form.url.value = getCookie("mtcmthome"); if (getCookie("mtcmtauth")) { document.comments_form.bakecookie[0].checked = true; } else { document.comments_form.bakecookie[1].checked = true; } //--> </script>



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值