A Crazy Idea: 面子搜索
这个Idea是在上个月二十六号(2008/9/26)突然想到的,似乎有点荒诞!
熟悉东方文化的人,都知道有两个关键词,在这个基于这种文化的社会里很重要:关系和面子。
今年夏天,微软亚洲研究院推出了一款基于“对象级别(object-level)”的互联网搜索引擎产品——人立方关系搜索。这款极具“中国风”味道的产品,迅速吸引了很多人的视线。
尝试这款产品,会发现搜索的结果差强人意,毕竟中文命名识别(Named Entity Identification,亦称之为专有名词识别)在今天还不是一件很容易的事情,所以网上一时间风云乍起,出现了很多拿这款产品的“荒诞”的结果开涮的文章——“李宇春是姚明的妹妹”,“比尔•盖茨居然同潘金莲扯上关系”,“四川地• 震中那只著名的猪——朱坚强也同潘石屹攀上了亲”。善哉,善哉!毕竟产品刚刚问世,好比做孩子刚出世吧,只当是童言无忌。
结果固然有些荒诞,可是创意直指东方文化的特点,其社会视角上的新意远远大于技术视角的“对象级别”搜索。
我们可以沿着这个思路继续走下去:去搞个“面子”评估,技术层面的方法说来也很简单,做个带有感情色彩的词典(最近才看到,知网上原来已经可以下载这样的词典了,罪过!)当然,这里的感情色彩不能只能有褒义、贬义两种,可以更细化,赋以不同的权值。然后,把我们的爬虫爬来网页整理分词之后,对每个网页产生不同的感情色彩Rank。当用户键入人名关键词后,就用户所要搜的人的名字,来检索他名字所在的各个页面的词语的感情色彩,在根据不同页面的等级(Rank),做个加权平均,反馈给用户。这不就是面子吗?这个效果,应该比微软的这款人立方更科学,人立方只是把不同名字根据相关度——这个相关度也只是不同的名字由于出现在相同页面的临近位置而产生的——来建立的关系而已,网易有道有个博客博主性别推断,我想这个“面子”搜索,应该比那个有吸引力吧,不过对于这个搜索的负面社会效果,应该足够的重视。可是,这样的搜索和人立方一样,会“红”的很快,因为,在产品诞生的初期,技术一定不是很完善,所得到的结果也会“出乎意料”的荒诞,而它的创意以及“荒诞”的结果正是许多人津津乐道的噱头,不愁没人去在这结果上大做文章。就像有人在用“李宇春是姚明的妹妹”爆料一样,估计面子搜索出来以后,又会有人爆料“谁谁谁很没面子”,“谁谁谁越来越有面子”,连请人写软文的费用都省了。
一个很荒诞的Idea,说与诸君,且供您一笑。