上周六去中旅大厦参加了CSDN主办的大数据会议,感受颇丰。只要有以下几点:
1.Hadoop真的很火。关于这套分布式的框架,只在研一接触过,现在实习阶段并未实施,可惜。Hadoop主要由HDFS、MapReduce和Hbase组成。HDFS是Google File System(GFS)的开源实现。MapReduce是Google MapReduce的开源实现。HBase是Google BigTable的开源实现。研一时,系统结构的吴老师就一直推荐mapreduce,自己并没有去做过,倒是感觉倒排索引跟它的思想是极其吻合的。以后想要去看一下HyperTable。另外一点,hadoop效率确实一般般吧,主要是用来做离线的数据处理。
2.Nosql不错,很侥幸自己研一做search engine时用到了mongodb。继续深入浅出mongodb。
3.流计算,没有仔细接触过,网上摘过来一些,the stream-based model inverts the traditional data management model by assuming users to be passive and the data management system to be active.
4.baidu人很多魅力,我指的是杨栋老师。baidu的HCE主要对task和用户应用的编译方面来优化性能。
5.sina的SAE,去看看吧http://sae.sina.com.cn/
6.taobao人也不错,最经典一句话,”计算对于我们来说已经不是瓶颈“,大气。多看下http://code.taobao.org/all/