而从人类的感觉上,至少要能有几个标签,比如名词、动词、形容词等,才能证明一个tweet可能包含有一定信息量,值得被传播。所以强制要求有N个标签被检测到的规则,恰好能逼近这种人类的认知。阅读全文>
发表于 @ 2010年01月23日 23:12:00 | 评论( loading... ) | 举报| 收藏
大致的框架就是这样。玩聚HOT还在内测中(所以暂不提供RSS和微博帐号),不排除打散逻辑重新组合,但基本哲学应该就是这些了。阅读全文>
发表于 @ 2010年01月18日 03:13:00 | 评论( loading... ) | 举报| 收藏
从 http://is.gd/6fWyt 学会一个概念:『沉默的螺旋 http://is.gd/6fWDd 』阅读全文>
发表于 @ 2010年01月14日 23:43:00 | 评论( loading... ) | 举报| 收藏
现在的重复内容检测逻辑是:
首先对文章内容较长的,是基于Shingle的重复检测办法;
其次对文章很短的,比如cnBeta摘要输出的RSS内容,比如Solidot,比如南方报业旗下的RSS内容,先提取标签,然后计算文章的标签相似度。
这两种办法算起来很快,但未必总能检测出来重复,继续积累吧。
阅读全文>
发表于 @ 2010年01月07日 00:56:00 | 评论( loading... ) | 举报| 收藏
说先退卡是为了规避忘记取卡的风险,是对的。这属于典型的两害相权取其轻。阅读全文>
发表于 @ 2010年01月05日 22:52:00 | 评论( loading... ) | 举报| 收藏
所以,不是“已经很少存在理性的声音了”(一点都不少),而是“不迷信权威、不非黑即白、能理性思考的受众人数相对太少”,无法让有理有据的观点第一时间传播。相反,那些乱力怪神、情感激烈、奇技淫巧的论点会快速传播,人的接收信息能力有限时,就会让这些声音充斥大脑,而根本接收不到理性的声音。阅读全文>
发表于 @ 2009年12月23日 19:54:00 | 评论( loading... ) | 举报| 收藏
所以,综上所述,《降世神通(Avatar)》的转世设定应该是取材于藏传佛教,而不是印度教或佛教。阅读全文>
发表于 @ 2009年12月15日 06:39:00 | 评论( loading... ) | 举报| 收藏
goldengrape说:『看了降世神通Avatar,才知道原来Avatar转世系统中不遵守灵魂守恒,而是每一次转世,就复制一份。紧急情况下与灵界沟通,进入Avatar state, 前世Avatar可以注入能量。这个转世系统很牛逼,值得修炼。』
北京报道 郑昀阅读全文>
发表于 @ 2009年12月15日 02:17:00 | 评论( loading... ) | 举报| 收藏
在一开始的时候,当自己还是一张白纸时,珍惜自己的职业荣誉吧。
简单地说,如何珍惜自己的职业荣誉,就是最开始不以金钱为短期目的,而是以打造自己职场形象为主,以做口碑为主,要保证做一个成一个,至少雁过留声,让别人知道你的idea、技术、运营还可以,千万别做一个得罪一群人,做一个死一个,那就严重影响你以后的IT圈子声誉了。
站长之间互相都知道的。站长们和当年的红卫兵一样经常串联的。阅读全文>
发表于 @ 2009年12月13日 03:08:00 | 评论( loading... ) | 举报| 收藏
如果你真的对前面那个People Search感兴趣,不妨看看他们的开源代码:
itswhoyouknow[Social Network Browser]
至少你可以观摩一下它的javascript是如何对Google Social Graph API再次封装的,如何调用Google AJAX Search API 的。阅读全文>
发表于 @ 2009年12月12日 03:00:00 | 评论( loading... ) | 举报| 收藏
才知道系列之四.才知道 豆瓣有个组叫豆瓣档cos江湖 ,动辄数千人以回贴加扮演的形式cosplay各种剧集。还演化出更复杂的师徒系统 。另一个组里海藻、宋思明和小贝都在cosplay了:http://is.gd/5a6sA 阅读全文>
发表于 @ 2009年12月05日 22:03:00 | 评论( loading... ) | 举报| 收藏
Parsley是一个挺有意思的小东西,它综合运用了CSS、XPath、正则表达式和JSON,是描述如何从网页里提取结构化数据的简单语言。估计做爬虫(Crawler/Spider)的人都会定义一套类似的模板。只不过Parsley还帮你把具体实现做了,用各种开发语言。 阅读全文>
发表于 @ 2009年11月27日 23:43:00 | 评论( loading... ) | 举报| 收藏
郑昀
@玩聚RT
20091124随便聊起来,说到Social数据挖掘,有一点小小的见解,请看:我们在中国大陆考虑从social数据挖掘寻找新价值的时候,一般要考虑两个点:1、是否有足够多的数据;
2、这些数据如何证明是有效/有价值的;或者说你能用什么办法清洗数据。一般来说,多数idea遇到第一个问题时就败了。
OneRiot
或者之所以有用,之所以他的Pulse Rank
大家还觉得有点意思,就是因为不管搜索什么,人家英文数据都足够多。数据寥寥无几,什么Rank
、什么排序
就一点意义都没有了。所以我曾经说过机器智能能够进入的垂直领域特点之一就是『信息源:网络资讯足够丰富,碎片多且分散』
,数据少的话,根本不需要机器智能,雇一个编辑就全部搞定了,而且数据变化少,你机器加工半天搞出来的数据,人家其他网站转眼就能给你copy/paste走。过了第一个点,但没有特征作为入口的话,第一,直接考验你的机器并行处理和索引能力,第二,你需要花费大量时间处理阅读全文>
发表于 @ 2009年11月25日 02:30:00 | 评论( loading... ) | 举报| 收藏