按照官方的说法,“OpenSourceCamp 是一个在开放环境中以非正式的会议方式进行知识,技术的交流活动形式。开发者,Blogger, 创业者,Geek, 等等都可以在这里 分享他们的想法,Demos, 并与每一个参与者进行互动交流。”
但Camp更像是个Geek们的世界,和我们这种见惯了“商务人士”会谈的似乎格格不入。
我还是把本来为了OpenSourceCamp准备的讲稿分享一下,欢迎来访。写得浅显,没有什么术语,主要是为了告诉大家语义技术并不高深,它最终可能像ajax一样是技术人员的一个辅助工具、是网站的一个功能亮点。
本来已经传到slideshare上了,但那里转换模糊了,而且不知道如何加上旁白。所以就还是回归原始了:
What is a Semantic App?
什么是语义应用呢?
是语义搜索吗?
是语义网吗?
这两个词儿说出来后,任何一个
VC
都要上下打量你好几眼,随时准备塞钱给你。
我们下面给出一个大家都看得懂的定义,
大致的意思就是,试图理解文本和其他数据的意思,并为用户创建某种关联。
现在基本可以分为两种做法:
这是第一种,
Bottom-Up
。
自下而上的研究方法。这是传统意义上的语义研究方向,真的是引无数英雄竞折腰。
也就是说,对现有的互联网的大量信息,进行注解,凭空在互联网之上构建一层知识体系,只不过
这是给机器看的,试图让机器理解它们。这些注解以
RDF
和
OWL
这种结构化的东西来保存。
由于海量数据、人类语言的复杂性、以谁为中心、如何制定并推广标准的标准等固有的问题,所以
我的基本判断是,这是一个大坑。搞语义网的兄弟们,对不起啦!
所以,今天我们不谈
Bottom-Up
的语义应用。
还有一种方法,是自上而下的。
什么叫做
Top-down
?
简单地说,就是选定一个特定的垂直语义应用,然后根据已有的互联网碎片,经过语义加工之后,
通过一个面向消费者的平台给出结果。
这么说可能不容易理解。我们用最快时间稍微举几个国外的例子。
P
owerset.com
是一个传说中的杀手级应用。很少有人看到她的真面目。凭借语义搜索这个概念,没
有任何产品出来的情况下,吸引了西方那些精英博客门的很多眼球,拿到了几千万美金的一轮又一
轮投资。我申请了测试,但也还没拿到邀请。有人测试过,说目前还只是填空式问题,然后搜索。
H
akia
的口号是,
Search for meaing
。她出来时间比较长了。测试效果也还不错。
这些都属于语义搜索的范畴。也算是
Top-down
的一个方向。
在中国,也有不少人凭借语义搜索的概念拿到了投资。譬如小
i
机器人的两千万美金,语义搜索的画
饼功不可没。前不久,一个风险投资人也在会谈中问我,你们能改作语义搜索吗?呵呵。
我的基本判断是,第一,暂时看不到强烈的需求,当然有人说了,不能听用户的,要帮助用户发现
需求。第二,这事儿吧几千万经不起花。语义搜索也是一个大坑。
Google
最近也刚把一位顶尖高手从语义网的项目中调走,引得
TechCrunch
哀叹道:别指望很快看
到
google
的语义搜索了。
Kango.com
是我最近一直在研究的网站。这是一个旅游指导网站。国外的旅游市场是一个繁荣的市
场。作为最近几个月刚冒头的新网站,而且还没有公开运营,她提供什么差异化的东西呢?
Kango
能按照个人的旅游需求或偏好,返回酒店和旅游活动的旅游搜索引擎
。更重要的是,她可以
帮助你安排旅游行程。
她分析了数以百万计的博客和社区文章,从中提取语义从而分析出人们口碑中的哪些酒店适合家庭
出游或允许带宠物的,哪些旅游景点是浪漫的或者刺激的。
我先插个小话题,语义说来说去,是要靠自然语言处理研究的,那么自然语言处理都包括哪些基本
技术呢?不知道这个,可能不足以理解
Kango
的指导意义。
两个核心问题,语言的自动理解(
Language Understanding
)和自动生成(
Language Generation
)
。
前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思。
后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。
回到
Kango
。
这张图是我测试以浪漫假期设定去火奴鲁鲁旅游的结果。
Kango
最让人期待的是它
“
主观
”
的处理搜索结果的技术。
Kango
正在开发一个
基于语义的旅游垂直
搜索引擎
(
semantic search engine
)。这个搜索引擎通过分析处理(
parse
)用户评论和旅游介绍
中的文字
/
语言,然后产生
tag
把旅游目的地酒店景点分类。
“
你不能坐等用户来加
tag
,你必须自己
先产生一部分的
tag
。
”
CEO Yen Lee
解释。所以,如果一个酒店在网上(例如
Yahoo Travel
,
TripAdvisor
,或者
Yelp
)被用户用
“
完美
”
,
“
放松
”
,
“
夫妻
”
,
“
蜜月
”
或者
“
SPA
“
这些词语谈论道,它
就会在一个
”
浪漫假期
“
的搜索结果中排名较高。 如果一个酒店和
”
厨房
“
,
”
游泳池
“
或者
”
孩子
“
联
系在一起,那么它在
”
家庭旅游
“
的搜索结果中排名就较高。
这样的技术是否能把用户从其他的旅游网站吸引过来,现在还是一个未知数。但是
Kango
的管理团
队有着非常优良的
”
血统
“
。
Lee
是
Yahoo Travel
的前任总经理,公司的搜索架构师
Huanjin Chen
曾
任
ebay
的
search architect
,自然语言搜索科学家,
Boris Galitsky
曾经为英国政府工作;市场总监
Elliott Ng,
是
Intuit QuickBook
的市场总监,以及上市公司
Netcentvies
的创始人之一。
面对大洋彼岸越烧越旺的语义之火,国内是个什么情况呢?语义应用到了什么地步呢?
我只说我了解的情况,大家要是知道更多请随时举手补充。
中国雅虎人际网络的人际关系计算。做起来其实蛮简单的。主要是实体词的准确提取,以及表达关
系的词的词性判断,可以手工收集也可以自动训练机器。
大旗口碑榜的正面、负面经验的判断。做起来更简单。分类就搞得定。但是如果她的正面经验三条
和负面经验三条,不是编辑手工作的话,那就属于语法分析的高手了。要知道截取帖子中的正面评
价不是不可以,但机器截取的准确率是不高的。
网易有道的判断博客男女,属于分类技术。
网易有道和搜狗对文字的判语,属于分类技术。
CIC
监控网络对大品牌的舆情。
玩聚监控博客论坛新闻视频,自动找到热点,并把谈论此热点的博客论坛新闻视频都聚合到一个故
事中。
宝聚监控财经论坛、门户、博客等等,统计市场各方对大盘对个股对基金的多空比例以及短线中线
操作意见。
谢谢!郑昀 2007122