大数据
WX Chen
实用技术总结,前沿科技分享,欢迎交流技术和业务
展开
-
Spark的原理
Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。 Spark有如下优势: Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。原创 2017-07-01 20:54:26 · 298 阅读 · 0 评论 -
HDFS和MapReduce
Hadoop的核心就是HDFS和MapReduce HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。 HDFS的设计特点是: 1、大数据文件,非常适合上T级别原创 2017-07-01 20:55:42 · 348 阅读 · 0 评论