HuFeiHu's Blog

知无涯者,虚心若愚,求知若饥,勇者天佑 !

排序:
默认
按更新时间
按访问量
RSS订阅

实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣

From http://www.dataguru.cn/article-9532-1.html     分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。   分布式流处理是...

2019-01-20 00:43:15

阅读数 190

评论数 0

实时流Streaming大数据:Storm,Spark和Samza

 当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。 Apache Storm   在Storm中,你设计的实时计算图称为toplogy,将其以集群方式运行,其主节点会在工作节点之间分发代码并执行,在一个topolo...

2019-01-20 00:42:35

阅读数 125

评论数 0

Stream 分布式数据流的轻量级异步快照

1. 概述 分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影响数据摄取的整体计算过程。其次,持久化存储所有传...

2019-01-08 14:31:27

阅读数 70

评论数 0

Spark在美团是怎么实现的

目录 1. 美团离线计算平台架构都有哪些框架? 2. 为什么要使用Spark架构? 3. spark推广过程中需要注意哪些方面? 前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、...

2019-01-08 14:29:53

阅读数 110

评论数 0

Hadoop/Spark相关面试问题总结

面试回来之后把其中比较重要的问题记了下来写了个总结:  (答案在后面) 1、简答说一下hadoop的map-reduce编程模型 2、hadoop的TextInputFormat作用是什么,如何自定义实现 3、hadoop和spark的都是并行计算,那么他们有什么相同和区别 4、为什么要...

2019-01-08 14:29:07

阅读数 54

评论数 0

Cheat Sheets for AI, Neural Networks, Machine Learning, Deep Learning & Big Data

在过去的几个月中,我一直在收集有关人工智能的相关资料。随着各种的问题被越来越频繁的提及,我决定整理并分享有关人工智能、神经网络、机器学习、深度学习与大数据的技术合辑。同时为了内容更加生动易懂,本文将会针对各个大类展开详细解析。 神经网络 机器学习 机器学习: Scikit-learn...

2018-12-04 13:24:46

阅读数 170

评论数 0

资源list:Github上关于大数据的开源项目、论文等合集

Awesome Big Data A curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php, awesome-python, awesome-rub...

2018-10-15 20:58:31

阅读数 433

评论数 0

基于Apache Zeppelin Notebook和R的交互式数据科学

介绍这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark...

2018-04-02 18:34:55

阅读数 281

评论数 0

数据科学工具箱: SparkR vs Sparklyr

文章转载自:https://segmentfault.com/a/1190000013806395背景介绍SparkR 和 Sparklyr 是两个基于Spark的R语言接口,通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护,通过源码级别更新SparkR的最新功能,最初...

2018-04-02 18:05:04

阅读数 277

评论数 0

大数据真实案例:Spark在美团的实践

美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进...

2018-03-11 11:01:27

阅读数 5437

评论数 0

PyCharm 远程连接linux中Python 运行pyspark

PySpark in PyCharm on a remote server 1、确保remote端Python、spark安装正确 2、remote端安装、设置 vi /etc/profile 添加一行:PYTHONPATH=SPARKHOME/python/: SPARK_HOME/p...

2018-01-05 11:30:58

阅读数 2190

评论数 0

写给大数据开发初学者的话

导读: 第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习 ...

2017-12-21 21:06:59

阅读数 280

评论数 1

PySpark处理数据并图表分析

PySpark简介 官方对PySpark的释义为:“PySpark is the Python API for Spark”。 也就是说pyspark为Spark提供的Python编程接口。Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序...

2017-11-27 15:39:54

阅读数 1347

评论数 0

Spark Streaming

Spark Streaming  Spark Streaming 是Spark为了用户实现流式计算的模型。 数据源包括Kafka,Flume,HDFS等。 DStream 离散化流(discretized stream), Spark Streaming 使用DStrea...

2017-09-23 11:41:45

阅读数 159

评论数 0

MongoDB + Spark: 完整的大数据解决方案

MongoDB上海的活动已经结束快1个月了,我们再来回顾一下TJ在大会上进行的精彩分享吧~ MongoDB + Spark: 完整的大数据计算解决方案。 Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用Spark...

2017-08-09 23:02:45

阅读数 1853

评论数 0

spark使用scala读取Avro数据

为什么使用 Avro ? 最基本的格式是 CSV ,其廉价并且不需要顶一个一个 schema 和数据关联。 随后流行起来的一个通用的格式是 XML,其有一个 schema 和 数据关联,XML 广泛的使用于 Web Services 和 SOA 架构中。不幸的是,其非常冗长,并且解析 ...

2017-08-07 16:26:21

阅读数 2049

评论数 0

Tachyon:Spark生态系统中的分布式内存文件系统

Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spar...

2017-07-23 08:19:14

阅读数 199

评论数 0

Spark高级数据分析(1) ——纽约出租车轨迹的空间和时间数据分析

本文在之前搭建的集群上,运行一个地理空间分析的示例,示例来自于《Spark高级数据分析》第八章。  Github项目地址:https://github.com/sryza/aas/tree/master/ch08-geotime ,  这个例子是通过分析纽约市2013年1月份的出租车数据,统计...

2017-06-10 22:24:18

阅读数 1296

评论数 0

基于Docker布署分布式hadoop环境

1.安装Docker  安装Docker的方法这里不再详述,根据自己的操作系统在网上有一大堆教程。今天我们的主要任务是在DOCKER上布署Hadoop。  2.下载 ubutun镜像 docker pull ubuntu:14.0411 这条命令的作用是从Docker仓库中获取ubun...

2017-06-05 16:14:32

阅读数 278

评论数 1

IntelliJ IDEA开发Spark、打JAR包

一、基于Non-SBT方式 创建一个Scala IDEA工程 我们使用Non-SBT的方式,点击“Next” 命名工程,其他按照默认 点击“Finish”完成工程的创建 修改项目的属性 首先修改Modules选...

2017-05-26 07:53:07

阅读数 427

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭