旁观者 - 郑昀

软件开发这些年来,不断地遇到新领域新知识点,屡屡感受到新进入者的迷惑和彷徨,所以对遇到的每一个问题都详细记录问题现象、解决思路以及解决方案,并在blog中留下印迹,以备他日有心人google之而知之。你们的新手之痛,你们的新业务发展之初的思路混沌,我都感同身受,所以欢迎和我一起探讨这些话题,诸如文本挖掘/自然语言处理/Web3.0/J2ME/Web2.0/IVR/SMS/MMS/WAP/SIP/等等,知无不言言无不尽。

用户操作
[留言]  [发消息]  [加为好友] 
订阅我的博客
XML聚合    FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
zhengyun_ustc的公告
<strong><a href="http://blog.csdn.net/zhengyun_ustc/archive/2005/04/06/338511.aspx"><font color="red" size="3">查看我的简历</font></a></strong><br/> <script src="http://sr.ju690.com/static/script/SRbacks.js"></script> <script type='text/javascript' charset='gb2312' src='http://it.ju690.com/meme/widget/get?num=8&columns=1&bj=F9FAF5&bc=D8DBBC&lc=2D8509&tc=AAAAAA&'></script> <br/> <font color="red"><b>订阅我的博客:</b></font><br/><a href="http://fusion.google.com/add?feedurl=http://blog.csdn.net/zhengyun_ustc/Rss.aspx"><img src="http://beta.feedsky.com/images/icon_subshot01_google.gif" alt="google reader" style="margin-bottom: 3px;" border="0" vspace="2"></a><br><a href="http://www.xianguo.com/subscribe.php?url=http://blog.csdn.net/zhengyun_ustc/Rss.aspx" target="_blank"><img src="http://beta.feedsky.com/images/icon_subshot01_xianguo.gif" alt="订阅郑昀到鲜果" style="margin-bottom: 3px;" border="0" vspace="2"></a><br><a href="http://www.zhuaxia.com/add_channel.php?url=http://feeds.feedsky.com/csdn.net/zhengyun_ustc"><img src="http://beta.feedsky.com/images/icon_subshot01_zhuaxia.gif" alt="订阅郑昀到抓虾" style="margin-bottom: 3px;" border="0" vspace="2"></a> <br/> <font color="red"><b>联系我:</b></font><br/> <img src="http://album.hi.csdn.net/app_uploads/zhengyun_ustc/20081028/195351995.p.jpg?d=20081028195409917"/> <br/> <img src="http://album.hi.csdn.net/app_uploads/zhengyun_ustc/20081028/195111011.p.jpg?d=20081028195157573"/> <br/> <font color="red"><b>我的J2ME创意</b></font><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2006/03/28/641991.aspx">{8.手机流媒体之实作}</a><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2006/03/20/630431.aspx">{7.2.增强型二级菜单[SaltedFish]}</a><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2006/02/17/601434.aspx">{7.1.二级菜单绘制演示-OperaMini风格}</a><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2005/12/27/563341.aspx">{6.Bloglines手机伴侣-Online Rss Service Reader}</a><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2005/11/07/524616.aspx">{5.手机玩转点对点MSN传情动漫}</a><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2005/10/31/519798.aspx">{4.手机玩Podcasting, 无线播客新玩法!}</a><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2005/10/24/514949.aspx">{3.手机看交通监视器实时录像}</a><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2005/10/13/502354.aspx"> {2.VideoCoolala-- [MobileWebCam]}</a><br/> <a href="http://blog.csdn.net/zhengyun_ustc/archive/2005/10/07/496816.aspx">{ 1.RSSOwlMidlet (RSS无线阅读器)}</a><br/>
文章分类
友情链接
宝聚-股市风向标
玩聚
玩聚SD(RSS)
玩聚SR(RSS)
草根网(RSS)
存档

原创  数据挖掘时用特征缩小范围很重要 收藏

此文于2009-11-25被推荐到CSDN首页
如何被推荐?

郑昀 @玩聚RT 20091124

随便聊起来,说到Social数据挖掘,有一点小小的见解,请看:

我们在中国大陆考虑从social数据挖掘寻找新价值的时候,一般要考虑两个点:
1、是否有足够多的数据;
2、这些数据如何证明是有效/有价值的;或者说你能用什么办法清洗数据。

一般来说,多数idea遇到第一个问题时就败了。

OneRiot 或者之所以有用,之所以他的Pulse Rank 大家还觉得有点意思,就是因为不管搜索什么,人家英文数据都足够多。数据寥寥无几,什么Rank 、什么排序 就一点意义都没有了。所以我曾经说过机器智能能够进入的垂直领域特点之一就是『信息源:网络资讯足够丰富,碎片多且分散』 ,数据少的话,根本不需要机器智能,雇一个编辑就全部搞定了,而且数据变化少,你机器加工半天搞出来的数据,人家其他网站转眼就能给你copy/paste走。

过了第一个点,但没有特征作为入口的话,第一,直接考验你的机器并行处理和索引能力,第二,你需要花费大量时间处理垃圾数据,这完全是浪费精力,因为你本可以干点别的。所以对于机器智能来说。需要从一个海量集合中走捷径缩小计算范围。这是基本处理方法。

即『面对海量数据的情况下,要先从中用特征和规则筛选和清洗数据 』。

推荐阅读:

1、语义与特征

National Geographic's International Photography Contest 2009

发表于 @ 2009年11月25日 02:30:00 | 评论( loading... ) | 编辑| 举报| 收藏

旧一篇:理工科生为什么必读东野圭吾推理小说? | 新一篇:描述如何从网页提取结构化数据的语言:Parsley

  • 发表评论
  • 评论内容:
  •  
Copyright © zhengyun_ustc
Powered by CSDN Blog