大数据
老吴的私房菜
热爱美食与健身的IT男
展开
-
Kafka+Spark Streaming+Redis实时计算整合实践
Kafka+Spark Streaming+Redis实时计算整合实践基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Sp转载 2017-02-04 15:08:59 · 572 阅读 · 0 评论 -
Hadoop、Storm和spark的区别
hadoop、storm和spark的区别、比较一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景,什么情况下使用hadoop4.什么是吞吐量首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需转载 2016-12-01 09:35:27 · 1268 阅读 · 1 评论 -
用Apache Spark进行大数据处理
用Apache Spark进行大数据处理——第一部分:入门介绍什么是SparkApache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。首先,Spark为我们提供了一个全面转载 2016-12-01 10:15:37 · 504 阅读 · 0 评论 -
用Apache Spark进行大数据处理二
Spark特性Spark通过在数据处理过程中成本更低的洗牌(Shuffle)方式,将MapReduce提升到一个更高的层次。利用内存数据存储和接近实时的处理能力,Spark比其他的大数据处理技术的性能要快很多倍。Spark还支持大数据查询的延迟计算,这可以帮助优化大数据处理流程中的处理步骤。Spark还提供高级的API以提升开发者的生产力,除此之外还为大数据解决方案提供一致的体系架构模型。转载 2016-12-01 10:16:40 · 550 阅读 · 0 评论 -
用Apache Spark进行大数据处理三
Spark体系架构Spark体系架构包括如下三个主要组件:· 数据存储· API· 管理框架接下来让我们详细了解一下这些组件。数据存储:Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源,包括HDFS,HBase,Cassandra等。API:利用API,应用开发者可以用标准的API接口创建基于Spark的应用。Spark提供Sca转载 2016-12-01 10:17:35 · 526 阅读 · 0 评论 -
用Apache Spark进行大数据处理四
如何安装Spark安装和使用Spark有几种不同方式。你可以在自己的电脑上将Spark作为一个独立的框架安装或者从诸如Cloudera,HortonWorks或MapR之类的供应商处获取一个Spark虚拟机镜像直接使用。或者你也可以使用在云端环境(如Databricks Cloud)安装并配置好的Spark。在本文中,我们将把Spark作为一个独立的框架安装并在本地启动它。最近Spar转载 2016-12-01 10:19:23 · 2518 阅读 · 0 评论 -
分享几个不错的博客
分享几个Spark和kafka比较不错的博客 http://blog.csdn.net/anzhsoft2008/article/category/2366163/2 http://blog.csdn.net/pelick http://www.cnblogs.com/fxjwind https://databricks.com/blog http://blog原创 2016-12-16 16:49:26 · 600 阅读 · 0 评论 -
MapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large ClustersMapReduce:面向大型集群的简化数据处理摘要MapReduce既是一种编程模型,也是一种与之关联的、用于处理和产生大数据集的实现。用户要特化一个map程序去处理key/value对,并产生中间key/value对的集合,以及一个reduce程序去合并有着相同key的所有中转载 2017-01-23 14:26:56 · 523 阅读 · 0 评论 -
Cassandra简介
在本文中,我们将对另外一种类型的NoSQL数据库——Cassandra进行简单地介绍。 接触Cassandra的原因与接触Neo4J的原因相同:我们的产品需要能够记录一系列关系型数据库所无法快速处理的大量数据。Cassandra,以及后面将要介绍的MongoDB,都是我们在技术选型过程中的一个备选方案。虽然说最后我们并没有选择Cassandra,但是在整个技术选型过程中所接触到的一系列内部机转载 2017-02-04 16:01:10 · 512 阅读 · 0 评论 -
MongoDB、Cassandra 和 HBase 三种 NoSQL 数据库比较
hadoop获得了许多大数据应用的信誉,但实际情况是,NoSQL数据库是一直处于更加广泛部署和更广泛的发展中的技术。尽管选择Hadoop作为应用存储,相对来说更直接简单。但是,具体采用什么样的NoSQL数据库是个值得思考的问题,毕竟,还有超过100种的NoSQL数据库。我们应该选择哪一种?选择倾向“任何像样规模的企业都会使用各种不同类型的数据存储技术,为应对各种不同类型的数转载 2017-03-06 16:42:08 · 479 阅读 · 0 评论