自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataScientist的专栏

云存储,云计算,数据库,数据挖掘和机器学习 http://weibo.com/kingoi

  • 博客(4)
  • 收藏
  • 关注

原创 用统计学的算法证明数据挖掘并非什么都能挖的出来

这是一个在《Mining of MassiveDatasets》中提到的一个问题。2002年布什政府为了反恐的需求,提出了Total Information Awareness项目,据说后来在国会未通过。TIA项目的主要目的就是通过对美国国民的日常生活数据进行监控和分析,找出恐怖分子。我们这里讨论的是这个项目背后的技术。很多人认为给我足够的数据,我就能挖掘出知识,而没有考虑这个挖掘背后的统计学

2012-02-04 21:32:55 2240 3

原创 存储和数据研究领域研究调研

研究一个问题,第一步呢肯定是要了解这个领域在国外和国内的大学和研究机构里有哪些组在做类似的工作,他们的工作进展情况。最近了解了国内外在存储领域比较著名的研究机构。在存储领域比较著名的会议有:OSDI,SOSP(在系统领域两个最顶级会议),还有在存储领域的顶级会议FAST,另外就是几个Hot系统的会议HotOS, HotStorage, HotCloud国外大学的研究小组:CMU PDL

2012-01-14 22:29:47 1467 1

原创 SEDA高性能互联网服务器架构模型(1)

最近研究云存储相关的系统,Oceanstore和Cassandra都用到了SEDA编程模型。(注:关于Cassandra的代码结构和SEDA模型的使用情况可以参考这篇文章http://prettyprint.me/2010/05/02/understanding-cassandra-code-base/,里面还有一张时间序列图来说明程序的流程。) Staged Event Driven

2012-01-07 22:06:20 2571 1

原创 Spark与Hadoop计算模型比较分析

最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。那么Spark和Hadoop有什么不同呢?1,Spark的中间数据放到内存中,对于迭代运算效率比较高。Spark aims to extend MapReduce for iterativealgor

2011-12-20 20:14:17 3891

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除