DataScientist-CSDN博客

原创用统计学的算法证明数据挖掘并非什么都能挖的出来

这是一个在《Mining of MassiveDatasets》中提到的一个问题。2002年布什政府为了反恐的需求，提出了Total Information Awareness项目，据说后来在国会未通过。TIA项目的主要目的就是通过对美国国民的日常生活数据进行监控和分析，找出恐怖分子。我们这里讨论的是这个项目背后的技术。很多人认为给我足够的数据，我就能挖掘出知识，而没有考虑这个挖掘背后的统计学

2012-02-04 21:32:55 2330 1

原创存储和数据研究领域研究调研

研究一个问题，第一步呢肯定是要了解这个领域在国外和国内的大学和研究机构里有哪些组在做类似的工作，他们的工作进展情况。最近了解了国内外在存储领域比较著名的研究机构。在存储领域比较著名的会议有：OSDI，SOSP（在系统领域两个最顶级会议），还有在存储领域的顶级会议FAST，另外就是几个Hot系统的会议HotOS, HotStorage, HotCloud 国外大学的研究小组： CMU PDL

2012-01-14 22:29:47 1556

原创 SEDA高性能互联网服务器架构模型（1）

最近研究云存储相关的系统，Oceanstore和Cassandra都用到了SEDA编程模型。（注：关于Cassandra的代码结构和SEDA模型的使用情况可以参考这篇文章http://prettyprint.me/2010/05/02/understanding-cassandra-code-base/，里面还有一张时间序列图来说明程序的流程。） Staged Event Driven

2012-01-07 22:06:20 2737 1

原创 Spark与Hadoop计算模型比较分析

最近很多人都在讨论Spark这个貌似通用的分布式计算模型，国内很多机器学习相关工作者都在研究和使用它。 Spark是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。那么Spark和Hadoop有什么不同呢？ 1，Spark的中间数据放到内存中，对于迭代运算效率比较高。 Spark aims to extend MapReduce for iterativealgor

2011-12-20 20:14:17 4010

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 用统计学的算法证明数据挖掘并非什么都能挖的出来

原创 存储和数据研究领域研究调研

原创 SEDA高性能互联网服务器架构模型（1）

原创 Spark与Hadoop计算模型比较分析

空空如也

空空如也

原创用统计学的算法证明数据挖掘并非什么都能挖的出来

原创存储和数据研究领域研究调研