- 博客(3)
- 收藏
- 关注
原创 在CSDN极客头条中,我们可以看到@刘江总编
时至今日,大数据这个概念已充斥了整个IT界,各种“搭载”了大数据技术的产品,各种用于处理大数据工具更如雨后的春笋触目皆是。同时,如果某个产品还没抱上大数据的大腿,如果某个机构还没捣鼓过基于Hadoop、Spark、Impala、Storm等高大上的工具,更会予以过时黄花的评价。然而,你的数据量真的需要使用Hadoop这样工具吗?你业务处理的数据类型真的需要大数据技术来支撑吗? 既然是大数据,
2014-03-29 14:05:04
433
原创 Spark独门秘籍:打造结构一体化、功能多元化的高效数据流水线
- 根据您的了解,目前Spark发展的情况如何? 目前Spark的发展不错,由于其高速的计算能力,强大的多种功能和一栈式解决方案,因此在美国和中国都有不少的用户群。但是从整体上来看,还是要在降低用户开发和调试成本上花更多的精力。由于Spark是并发异步模型,而且支持内存计算,这样对内存消耗会很大,编程难度较高。一旦出错,如何快速准确的找到错误,并且定位原因,找到最佳的解决方案,对于开发者来
2014-03-29 14:04:40
472
原创 淘宝明风:基于Graphx的图计算实践分享
以下是记者采访原文: - 什么原因吸引你钻研Spark技术? 研究Spark是从2012年的0.4版本开始的,当时Hadoop和Hive在阿里的成熟度已经达到了一个很高的程度,但是我感觉它们只解决了BI的问题,对于数据挖掘和机器学习算法,它们不能给出很好的方案,我看到有些做搜索和广告的同学,用Mahout或者其它自己写的MR,很慢很吃力的解决复杂的机器学习问题。我感觉这个不是一个正
2014-03-29 14:04:21
470
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人