语义分析相关应用的实作要点

郑昀@玩聚RT 20090703

舆情监测和口碑监测都属于一个路子。常有人问到自然语言处理技术在其中如何上手实用。下面简单说一下。

一、词典和算法

前期的主要问题是用于分词和分类的词典建立,根据你的应用不同,这一套词典(可能有很多词典,比如人名、地名、组织名、常用英文缩写)的侧重是不同的。还有停用词表,也就是“的”“啊”“哦”之类的词。

举例:

对于生活搜索,“鱼头王”和“鱼头”应不应该都在词典中出现呢?“大酒店”和“酒店”呢?取舍取决于你的分词算法,甚至取决于你的应用点,如果是正向最大匹配分词算法,如果是搜索应用,那么显然应该移除“大酒店”和“鱼头王”。

后期则是自动去重、提取标签和自动聚类的算法以及效率问题,提取实体词和标签也是词典问题。

分词算法用谁家的都无所谓,开源的、能拿到手的、靠谱的有不少。主要是一套专用词典。需要(自动地)与时俱进,而不是拿一个许多年前的不更新的旧词典就搞定的。

也就是说整个应用的主要问题是词典和算法。

二、明确需求

语义这东西,如果没有明确的需求,很有可能花一番气力做出来的东西,最后不要了。算法一旦去研究,就会耗费很多精力去做对比实验,词典们一旦要自己收集并认真整理,就会耗费很多人工。这些都是成本。

所以必须明确需求。 
没有明确的需求,很多工作等于是白做。

三、较高级的挖掘

深层次文本挖掘,国内外的做法一般有: 
1:描述性的特征提取,如能够知道人们对某一款汽车具体到操控性、耗油量、舒适性等的评价以及评分; 
2:情感分析,即正负面判断,基本上是靠词典和模式匹配; 
3:自动热点发现,即聚类的变种; 
4:利用实体词、标签做统计做趋势; 
5:传播途径分析; 
6:特定领域的观点自动提炼,基本上是靠词典和模式匹配;

7:自动生成总结(Summary),注意不是“摘要”。 
剩下的就都是围绕着关键词的简单玩法了。

社交玩法

Read/Write Web的文章也提到了社交的几个点,不妨一看

  • 语义链接分享
  • 网络挖掘
  • 新闻分享
  • Tweet挖掘

至于它后面说的语义/语境广告投放,那都是巨头的玩法,一般人不要轻易介入。

垂直、垂直

如果客户追踪的是某一个垂直领域,而不是那种泛泛的内容监控,其实很多事情就有了可做、可控的余地。 
口碑监测或舆情监控,最麻烦的就是不知道将要监控的内容是什么,有没有明确的语言特征;这样,词典不好积累,算法不好交叉验证和调整,不容易走捷径。

四、能做好的

在垂直领域,即像汽车、旅游、饭馆、酒店和股票等的口碑监控,技术可以有把握做到的: 
1:准确分词、分类; 
2:准确提取标签和实体词; 
3:描述性的特征提取; 
4:自动发现热点;

不需要垂直领域也可以做到的: 
1:自动去重; 
2:通过实体词和标签的关联建立;

五、词典

需要整理专有词典的: 
1:分词、分类(严重取决于训练机器时的语料是否准确是否具有代表性); 
2:实体词、提取标签; 
3:情感分析; 
4:描述性的特征提取;

不需要词典就可做的: 
1:自动去重; 
2:热点自动发现(说到底还是需要,但不那么严格需要); 
3:高速传播事件监测(其实是自动去重的镜像应用)。

六、做应用的流程

1:确定监控的垂直领域;

2:收集整理好专有词典; 
3:为分类准备足够多的语料,每一个分类需要至少三百到五百篇文本,以供训练; 
4:做垂直,像CIC或爱搜车的做法,至少要收集足够多的独特性汉语词汇,比如产品昵称,就有黑莓、BB、本本儿、小黑、小捷等;

4:为描述性的特征提取,收集语料,建立各种词典。

5:为情感分析收集语料,建立词典。

6:分别试验各种算法,反复调整以达到商用的准确率。

7:将各种语义处理联起来,合成应用。

 

举例:

我们做 玩聚中文锐推榜 这个非常简单的语义应用的流程:

1:明确需求:近乎实时地获取 Twitter 和 饭否 的RT(锐推,或称“转发”)消息,将内容相似的合并为一条消息;如果该消息被转发次数足够多,就可以登上中文锐推榜,并通过我们的官方微博客帐号和RSS发布出去。

2:确定重点功能以及对应的自然语言处理能力:

A、合并相似的转发消息:基于分词;

B、上榜锐推的标签,标签关联,热门标签趋势:都是基于自动提取标签;

C、阻止内容大体相似的锐推重复上榜:基于标签;(

不那么典型的是这两个上榜锐推,应该有一个被阻止上榜的,但实际上很难,因为语言特征上很难做出判断,虽然人一眼就能看出是重复的:

RT: @jason5ng32: 这几天我看到的“门”:邯郸大学教室做爱门、慈溪职高摸奶门、北京顺义脱裤门、上海地铁洗手门、湖南幼师摸鸟门、图书馆飞机门、湖南某学校秋千门。

RT @yeluchow: 今天看了3个门事件 摸×门 电梯门 秋千门 结论是 现在脑残儿童真多。 /// 难不成这也是在给 “绿·坝” 造势???

。比较容易阻止的是下面这种:

RT @flypig: 贵国的 CCTV 终于在网站上 (页面地址:http://is.gd/16cfg ) 替秦刚老师承认了 GFW 的存在,请看截图:http://twitpic.com/7silp ,让我们为这种有责任心的媒体喝彩哟! (CCTV 'admitted)

#RT: @DavidFeng: 贵国的 CCTV 终于在网站上 http://is.gd/16cfg 替秦刚老师承认了 GFW 的存在,截图 http://twitpic.com/7silp

主要是因为文字长度太短,短的话也就十几个字,所以以往用于长文章的诸多常规手段都用不了,需要调整。

3:针对锐推的语言行为,整理并持续更新自己专有的停止词词典。

4:整理自己的标签专用词典s,这个倒可以用通用的词典s;

5:反复调整各项参数,使之达到人可以觉得丰富、最好是有趣的地步;

6:将各个计算串联起来,如前面语义算的,如从每一个转发消息中提炼参与转发的用户名,等等,成为 中文锐推榜 的应用,每5分钟刷新一次,7×24地侦测中文微博客世界在流行锐推什么新闻、段子和语录。

4
0
« 上一篇: 中文微博客的热门锐推用户榜
» 下一篇: 如何传播一个会议--给Open Party的建议
posted @  2009-07-04 01:46  旁观者 阅读( 12980) 评论( 0编辑  收藏

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值