旁观者 - 郑昀

软件开发这些年来,不断地遇到新领域新知识点,屡屡感受到新进入者的迷惑和彷徨,所以对遇到的每一个问题都详细记录问题现象、解决思路以及解决方案,并在blog中留下印迹,以备他日有心人google之而知之。你们的新手之痛,你们的新业务发展之初的思路混沌,我都感同身受,所以欢迎和我一起探讨这些话题,诸如文本挖掘/自然语言处理/Web3.0/J2ME/Web2.0/IVR/SMS/MMS/WAP/SIP/等等,知无不言言无不尽。

2009年07月04日

原创 语义分析相关应用的实作要点


郑昀 @玩聚RT 20090703
舆情监测和口碑监测都属于一个路子。常有人问到自然语言处理技术在其中如何上手实用。下面简单说一下。
一、词典和算法
前期的主要问题是用于分词和分类的词典建立,根据你的应用不同,这一套词典(可能有很多词典,比如人名、地名、组织名、常用英文缩写)的侧重是不同的。还有停用词表,也就是“的”“啊”“哦”之类的词。
举例:
对于生活搜索,“鱼头王”和“鱼头”应不应该都在词典中出现呢?“大酒店”和“酒店”呢?取舍取决于你的分词算法,甚至取决于你的应用点,如果是正向最大匹配分词算法,如果是搜索应用,那么显然应该移除“大酒店”和“鱼头王”。
后期则是自动去重、提取标签和自动聚类的算法以及效率问题,提取实体词和标签也是词典问题。
分词算法用谁家的都无所谓,开源的、能拿到手的、靠谱的有不少。主要是一套专用词典。需要(自动地)与时俱进,而不是拿一个许多年前的不更新的旧词典就搞定的。
也就是说整个应用的主要问题是词典和算法。
二、明确需求
语义这东西,如果没有阅读全文>

发表于 @ 2009年07月04日 01:43:00|评论(loading...)|举报|收藏

2009年06月25日

原创 中文微博客的热门锐推用户榜


郑昀 @玩聚锐推榜  20090625
    twitter、饭否等微博客已经成为信息传播的重要阵地。许多社会事件都是第一时间在微博客上爆发出来,经过大量的微原创 、微转发、微传播,将信息在几十分钟内传达给数以十万计的民众。最近最火的就是石首 的尸体 事件,以及24日Google DNS劫持 事件了。
    那么,通过测量微转发(即Twitter术语中的“retweet(锐推)”,饭否术语中的“转发”)行动中的转发用户名,我们可以很容易获知在微传播过程中最核心节点、最频繁被锐推的关键用户。
    于是这就是:热门锐推用户榜 ,只统计一周内的关键传播节点,一小时更新一次榜单。

点击此处看大图
看榜小结:
    1、从榜单的 Top Ten 核心节点用户来看,Twitter和饭否各居5席。
    2、当然,冉云飞、连岳、艾未未、北风四人两边都有帐号,也都有超高的被转发量。我们没有合并他们的帐号。
    3、推特大神@Fenng 、@virushuo 和阅读全文>

发表于 @ 2009年06月25日 15:59:00|评论(loading...)|举报|收藏

2009年06月19日

原创 中文锐推榜的一个里程碑


郑昀 @玩聚RT  20090618
今天,@terryxxy  发消息“恭喜 @rtmeme follower 上2000 (FW @zhengyun )。”
是的,玩聚中文锐推榜 的twitter消息发布机器人 @rtmeme 的订阅人数超过了2000人。
我期望 @rtmeme 能成为欲探究微博客有趣之处的新用户必 follow 帐号之一。
我期望那些刚来到 Twitter  或 饭否  且 心神恍惚 不知道自己该做点什么的人都可以关注锐推榜 的消息。(Twitter新用户可以follow @rtmeme ,饭否新用户可以关注 @中文锐推榜  )。
我期望 锐推榜 能像谷歌资讯、TechMeme、TweetMeme、玩聚SR解决资讯热点一样解决中文微博客世界的热点,过滤噪音,揭示流行趋势。
我期望 锐推榜  能成为微博客信息过滤器,它能打通过去和未来的有趣锐推,如:Google  央视  护航  互联网  色情  绿坝 。阅读全文>

发表于 @ 2009年06月19日 00:12:00|评论(loading...)|举报|收藏

2009年06月16日

原创 中文锐推榜的优化


郑昀 @玩聚RT  20090615

中文锐推榜 (原理很简单,就是自动搜集中文世界微博客的锐推(转发)消息,语义计算消息之间的相似性,自动聚合一条消息被 Twitter和饭否用户转发的次数;转发次数高的消息将登上热榜)在6月9日加入饭否的合并统计 之前,存在的老问题:
1、重复 :发源自不同人的锐推,内容大致是一件事情或一个链接,但由于措辞不同(汉语博大精深),甚至只是在最前面加了几个字或者诡异的符号,然后只要转发次数足够多,就可以导致重复上榜;
    解决办法:针对此问题,我们已经建立了不少规则,尽可能地去除锐推消息中的标点符号英文字母、各种格式各种习惯的转发过程中用户增加的评论。自然语言处理上,则清理消息中无意义的停止词,如“的”“是”等等。但只能尽可能减少,并未彻底解决。

在 @NetPuter 的建议下,最近加入对饭否数据的统计。
之后常被投诉的问题:
1、还是重复问题 ;
2、部分知名ID过于频繁上榜 :尤其以饭否ID为主;
3阅读全文>

发表于 @ 2009年06月16日 00:47:00|评论(loading...)|举报|收藏

2009年06月10日

原创 中国站长站王小东专访郑昀:探索语义聚合为你呈现精彩信息


2009-06-10 12:29:44 来源:中国站长站
感谢主持人王小东!
我摘录了一些问答,全文请到 中国站长站 看。

中国站长站《站长访谈》主持人王小东: 欢迎郑昀做客中国站长站!首先向郑昀表达一个敬意,在互联网的“好文章”后面,常常可以看到你的勤奋身影。
郑昀: 我们一直关注如何找到互联网上最优秀的内容和人,基于各种各样的数据和方法,把它们有效整合,并力图完美呈现。
王小东: 对,你也曾经说过,玩聚网的内容取舍很大程度上源自你的审美趣味,很多内容特别是早期的玩聚网,多是你平时阅读的RSS订阅列表。那么,呈现玩聚网现在的样子,相信不仅仅是列表的呈现吧。可否详细介绍一下你所说的语义技术作为二层过滤,达到一个有价值主题呈现的这一图景?甄选好文章,主要有哪些途径呢?
郑昀: 发现互联网最优秀最新鲜的文章或热点,我们探索的大致有两种测量维度:
一,找到用户或站方信赖的信源。比如,天涯社区的一些板块,Twitter ,FriendFeed ,某些博客,等等,相对值阅读全文>

发表于 @ 2009年06月10日 14:13:00|评论(loading...)|举报|收藏

2009年06月09日

原创 玩聚RT 加入对饭否的统计


郑昀 @玩聚RT 20090609
玩聚RT是什么?
玩聚RT ,即中文锐推榜,实时追踪中文微博客世界的最新鲜、传播最广的锐推。
最开始只是自动聚合Twitter 中文用户的RT(即转发)行为,统计得出最新鲜锐推榜单,并转发到官方帐号:@rtmeme 上。用户 follow @rtmeme 即可收看。或订阅 RSS Feed 。
为何加入对饭否RT行为的统计?
在饭否站方提供“转发”按钮之前,饭否用户也会自发地转发消息,但行为并不规范,多种格式并用,不像 Twitter 用户有被各种第三方工具认可的 RT 规范。所以,统计会遭遇很大麻烦。
但站方提供此按钮,并自动加“转:”字样代表转发后,情况就好多了,有利于第三方统计。
饭否和Twitter的合并计算
饭否消息和Twitter Tweet经过剔除各种符号标点,经过语义处理,得到净化后的传播本体,然后统计出传播最多的锐推消息。
此消息同时发送给 Twitter的 @rtmeme 和 饭否的 @中文锐推阅读全文>

发表于 @ 2009年06月09日 14:40:00|评论(loading...)|举报|收藏

2009年05月28日

原创 逆转是怎么发生的?


郑昀 @玩聚SR 20090527
    曾几何时,香港警员的95% 都参与了贪腐。当一个一个警员被迫加入行贿受贿行列中时,当其他公共服务机构也参与进来时,当民众不行贿就难以使用公权资源时,看上去似乎整个体系烂透了,无药可救,就像人们现在看杭州和野三关镇的寒彻心扉默认接受不愿多言一样。
    然而正如历史一次又一次地告诉我们的那样,引爆点终于来了。
    随着总警司葛柏 因被律政司调查且轻易逃往英国,引爆了民众的反腐大游行,由此廉政公署成立。
    几年过去,竟然一个烂透了的公权机器被廉政公署逆转了。接下来,香港变成了地球上最廉洁的城市之一。
    Why?为何“香港胜在有ICAC ”?
退二进三?迫不得已的妥协
    可想而知,当95%的警员都主动或被动参与其中时,每个高级警务人员都有不光彩的过去时,你怎么抓怎么动?这也是四川宣布地震校舍不存在质量问题的原因。
    事实证明,廉政公署确实敢迎难而上,不像大陆这么喜欢集体和稀泥。但警察们可不会这么轻易地被收拾。阅读全文>

发表于 @ 2009年05月28日 01:40:00|评论(loading...)|举报|收藏

2009年05月22日

原创 谈谷歌百宝箱的“时空隧道”


郑昀 @玩聚RT 20090522
    周四下午,应龙如俊 兄弟和奥美的邀请,去参加了谷歌搜索百宝箱的新闻发布会 ,见着了李开复和洪波的真人。
    发布会现场员工扮演机器猫 引介的重点是神奇罗盘 (Wonder wheel)和时空隧道 (Timeline),那么我们姑且分析一下二者的实现。
第一印象
    如果“时空隧道 ”只是简单地判断关键词在文中出现位置的前后是否有明确的年份标记,如果“神奇罗盘”只是图形化相关搜索关键词,如果雅虎很早以前就推出过特定时间段的搜索选项,那这次谷歌发布百宝箱,可能主要难点在于海量数据的处理上。
事后分析
    当晚,我并不能立刻在谷歌页面上看到google.com上的开启选项。据龙如俊说,当前为5%的用户,在搜索时出现百宝箱功能 。
    翌日,选项出现,和俊林讨论了一下,对于中文领域的“时空隧道”,大致判断如下:
    1:对于某一篇文档分词后出现的词,一般索引中会记录它的出现位置和词频。为了配合Timeline功能,还会附阅读全文>

发表于 @ 2009年05月22日 22:59:00|评论(loading...)|举报|收藏

2009年05月21日

原创 玩聚RT受到Twitter Search的影响暂时无法自动更新


郑昀@玩聚RT 20090520
现象
5月20日,中文 Tweets 被 Twitter Search 划分到了不同语种中;本语种的搜索结果极难得更新一次。
大致问题时间起始自北京时间5月20日6点~7点,至今未解决。
不仅仅是中文,日语和泰语等亚洲语系都受到影响。莫非是Twitter Search在调整亚洲语系的索引?
举例
譬如,点击不同语种的搜索rt关键词:
http://search.twitter.com/search?q=rt&lang=is
http://search.twitter.com/search?q=rt&lang=it
http://search.twitter.com/search?q=rt&lang=de
都出现了大量的中文及日文锐推。以前没这么极端,虽然中文和日文容易混在一起,但和其他语系还是容易分开的。
真正的日文搜索:
http://search.twitter.com/search?q=rt&lang=ja阅读全文>

发表于 @ 2009年05月21日 11:25:00|评论(loading...)|举报|收藏

原创 玩聚的Tweet&Blog墙 X


20090519
Blogs: 

脑筋动得快的人,已经想到如何把微网志的内容带进书籤网站的方法了。就是以retweet次数做排名的锐推排行榜,例如美国的Tweetmeme与大陆的玩聚。
以功能来说,我认为玩聚做得十分完整,虽然以alexa流量排行来看,这两个网站还算不上成功,但整体而言,却是其他书籤网站可作为参考的方向。这也证明了,书籤网站只要稍加修改,其运作模式还是可以套用于微网志上。

--- MMDays:在微网志〈Microblogging〉兴起的时代里,你如何阅读?
2009年5月20日

鲜果和抓虾的热文早该搞RSS输出了,不过他们同质化很厉害,玩不过玩聚SR。九点相对而言,小资些,有些另类,还可以看到点不同的信息。

--- XYWF 2009年5月13日

可以适当follow一些诸如 @rtmeme 这样的机器人,他会让你看最少的tweets却获得最大的信息量。

--- zhutou:Twitter的信息阅读全文>

发表于 @ 2009年05月21日 11:10:00|评论(loading...)|举报|收藏

2009年05月16日

原创 Python的win32serviceutil之疑似BUG


郑昀@玩聚SR 20090515
1、现象:
用Python的win32serviceutil控制Windows Service启动、停止、重启时,如下代码一般是没问题的。
import win32serviceutil
def service_manager(action, machine, service):
    if action == 'stop':
        win32serviceutil.StopService(service, machine)
    elif action == 'start':
        win32serviceutil.StartService(service, machine)
    elif action == 'restart':
        win32serviceutil.RestartService(service, machine)
    elif action =阅读全文>

发表于 @ 2009年05月16日 01:26:00|评论(loading...)|举报|收藏

2009年05月14日

原创 CSDN Blog的BUG

BUG。阅读全文>

发表于 @ 2009年05月14日 14:15:00|评论(loading...)|举报|收藏

2009年05月13日

原创 0509·刘未鹏的TL聚会[三]


郑昀@玩聚SR 
北京。五道口。5月9日。
TL聚会话题继续登出。[请阅读[一]和[二]了解]。
5、科学家主导与工程师主导
一方认为Sun是典型的科学家主导的公司,所以做不好。这个观点,霍炬以前在5G也表达过:Sun是一个科学家企业,不是一个市场企业。
而豆瓣看上去是工程师主导的,但实际上不是,貌似是产品经理主导,甚至只是阿北主导的。
工程师主导的,国内据说是网易有道,国外就是Google。
不过很难说清楚此处的科学家主导和工程师主导区别何在,如果说到不以市场为导向,这二者没什么区别。如果是研究机构,科学家也许更多考虑发表论文,不考虑工程实际细节?但在公司,科学家和工程师身份容易混淆,所以keso在同一个访谈中说“我同意Sun是一个工程师主导的技术性公司”。
6、发散阅读解决方案
大家都知道 pongba 推崇 stumbleupon ,它能让你发现你原来对如此多的话题感兴趣,而这些你以前都不知道,甚至你以为你已经知道得够多了。
pongba 问我 玩聚SR 下一步的计划是阅读全文>

发表于 @ 2009年05月13日 18:27:00|评论(loading...)|举报|收藏

2009年05月12日

原创 0509·刘未鹏的TL聚会[二]


郑昀@玩聚SR 
北京。五道口。
TL聚会话题还在延续。[请阅读[一]了解]。
继人工智能+进化、破坏性创新两个话题后(tinyfool和joyfire都在FL本topic做了补充发言,我更新进去了),我们继续边跑题边激荡。
3、豆瓣的数据
    zsp 来自于豆瓣。
    pongba 认为豆瓣需要好的产品经理,充分挖掘豆瓣的巨大潜力。
    我说我把豆瓣API小组的讨论从头翻到尾,也没看到几个让人眼前一亮的豆瓣第三方应用(他们自己也说“API的流行程度还是低于了我的预期”)。
    究其原因,豆瓣把自己的API限制得太死,给第三方应用很少的腾挪空间,用户隐私保护得太厉害了。默认,用户重要数据是需要相应用户确认才能被应用访问的。
    豆瓣API对访问频次也限制非常严格,每分钟超过40次就会被封。
    当然,豆瓣也常常分析访问日志,如果某些访问不正常,就会封之。这也是被诸多山寨豆瓣、山寨书评影评网逼得。
    这也是阿北的风格。豆瓣的海量高质量阅读全文>

发表于 @ 2009年05月12日 00:48:00|评论(loading...)|举报|收藏

2009年05月11日

原创 0509·刘未鹏的TopLanguage聚会[一]


郑昀@玩聚SR 
北京。五道口。
星期六。己丑年四月十五。气温适宜外出活动。
@pongba 前不久离开了南大,受邀微软来到北京。继上月他与李笑来会师(江湖曾流传一句话:自从读了李笑来, 我就不写人生感悟了; 自从读了刘未鹏, 我就不写学习方法和思维方法)后,他又召集了TopLanguage小组聚会。
本次与会技术人7个(按出场顺序排列):@pongba Blog:http://mindhacks.cn 微软亚洲研究院王乐珩 Blog:http://joyfire.spaces.live.com 中科院计算所@googollee Blog:http://googollee.blog.163.com/ Nthcode@zhengyun Blog:http://blog.csdn.net/zhengyun_ustc/ 玩聚网@tinyfool Blog: http://www.tinydust.net/dev 银杏泰克张沈鹏 Blog:http://zsp.javaeye.com/ 豆瓣孙勇 http://blogs.sun.com/阅读全文>

发表于 @ 2009年05月11日 20:29:00|评论(loading...)|举报|收藏

用户操作
[即时聊天] [发私信] [加为好友]
郑昀
订阅我的博客
XML聚合  FeedSky
郑昀的公告
查看我的简历

郑昀的动态


    订阅我的博客:
    google reader
    订阅郑昀到鲜果
    订阅郑昀到抓虾
    联系我:


    我的J2ME创意
    {8.手机流媒体之实作}
    {7.2.增强型二级菜单[SaltedFish]}
    {7.1.二级菜单绘制演示-OperaMini风格}
    {6.Bloglines手机伴侣-Online Rss Service Reader}
    {5.手机玩转点对点MSN传情动漫}
    {4.手机玩Podcasting, 无线播客新玩法!}
    {3.手机看交通监视器实时录像}
    {2.VideoCoolala-- [MobileWebCam]}
    { 1.RSSOwlMidlet (RSS无线阅读器)}
    文章分类
    收藏
    友情链接
    宝聚-股市风向标
    玩聚
    玩聚SD(RSS)
    玩聚SR(RSS)
    草根网(RSS)
    存档
    Csdn Blog version 3.1a
    Copyright © 郑昀