跋跋寒的博客

热爱大数据,热爱机器学习

排序:
默认
按更新时间
按访问量

spark监控

有几种方法可以监控Spark应用程序:Web UI,指标和外部检测。 Web界面 默认情况下,每个SparkContext都会在端口4040上启动Web UI,以显示有关应用程序的有用信息。这包括: 调度程序阶段和任务的列表 RDD大小和内存使用情况的摘要 环境信息。 有关运行执行程序...

2018-08-14 16:51:59

阅读数:3

评论数:0

spark调优

数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 概要 由于大多数Spark计算的内存特性,Spark程序可能会受到群集中任何资源的瓶颈...

2018-08-14 16:49:27

阅读数:4

评论数:0

Spark推测执行spark.speculation

1. 背景 hadoop的推测执行    推测执行(Speculative Execution)是指在分布式集群环境下,因为程序BUG,负载不均衡或者资源分布不均等原因,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有...

2018-08-14 15:16:32

阅读数:2

评论数:0

Streaming流式框架汇总

原文:https://github.com/InterestingLab/awesome-streaming#online-machine-learning A curated list of awesome streaming (stream processing) frameworks, a...

2018-08-14 13:38:01

阅读数:2

评论数:0

Kafka Producer是如何动态感知Topic分区数变化

我们都知道,使用Kafka Producer往Kafka的Broker发送消息的时候,Kafka会根据消息的key计算出这条消息应该发送到哪个分区。默认的分区计算类是HashPartitioner,其实现如下: class HashPartitioner(props: Verifiabl...

2018-08-14 09:49:14

阅读数:2

评论数:0

DirectKafkaInputDStream源码分析(包含动态分区感知)

先上一个官网的栗子: object DirectKafkaWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println(s&quo...

2018-08-14 09:30:42

阅读数:11

评论数:0

基于 Flink 的实时特征平台在携程的应用

本文来自7月26日在上海举行的 Flink Meetup 会议,分享来自于刘康,目前在大数据平台部从事模型生命周期相关平台开发,现在主要负责基于flink开发实时模型特征计算平台。熟悉分布式计算,在模型部署及运维方面有丰富实战经验和深入的理解,对模型的算法及训练有一定的了解。 本文主要内容如...

2018-08-13 09:59:45

阅读数:46

评论数:0

黄渤《一出好戏》首日票房 1.5 亿,口碑碾压《爱情公寓》凭的是什么?

  本人作为黄渤的粉丝,《一出好戏》当然是必看无疑呀。在今天正式观看之前,先来通过猫眼的影评来分析下网友对它的反馈。     爬取数据   这里通过去请求猫眼的 API 来抓取数据,借助的工具是 requests 。 这里简单说下猫眼影评的 API: http://m.mao...

2018-08-13 09:27:55

阅读数:44

评论数:0

Kafka性能测试之produce

在kafka的bin目录下,有两个脚本kafka-producer-perf-test.sh 和kafka-consumer-perf-test.sh,这两个脚本的作用是用来测试生产者和消费者的。 [root@hostname bin]# ./kafka-producer-perf-test....

2018-08-13 09:09:11

阅读数:49

评论数:0

如何使用 Java 调取 Python、R 的训练模型?

在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。   PMML   PMML 是 Predictive Model Markup Language 的...

2018-08-13 09:07:59

阅读数:7

评论数:0

Apache Spark 2.3 重要特性介绍

为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pandas U...

2018-08-10 14:03:01

阅读数:50

评论数:0

Apache Spark 统一内存管理模型详解

本文将对 Spark 的内存管理模型进行分析,下面的分析全部是基于 Apache Spark 2.2.1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。文章仅对统一内存管理模块(UnifiedMemoryManager)进行分析,如对之前的静态内存管理感兴趣,请参阅网上其他文章...

2018-08-10 11:05:43

阅读数:51

评论数:0

Spark SQL 你需要知道的十件事

本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括: Spark SQL 使用场景 数据加载:云和本地, RDDs 和 DataFrames SQL 和 DataFrame API 比较,它们之间的区别 模式: 隐式和显示模式解释,数据类型 数据加载以及结果保存等 SQ...

2018-08-10 11:03:50

阅读数:10

评论数:0

Spark Streaming应用与实战全攻略

一、背景与架构改造   1.1 问题描述 有一块业务主要是做爬虫抓取与数据输出,通过大数据这边提供的SOA服务入库到HBase,架构大致如下: 架构改造之前 以对于以上的架构存在一些问题,我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase,中间并没...

2018-08-10 10:30:59

阅读数:157

评论数:0

基于Spark的用户行为路径分析

一、研究背景 互联网行业越来越重视自家客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍其中一个重要的功能点,基于行为日志统计用户行为路径,为运营人员提供更好的运营决策。...

2018-08-10 10:30:07

阅读数:143

评论数:0

Spark知识体系完整解读

Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽...

2018-08-10 10:25:18

阅读数:153

评论数:0

60 TB数据:Facebook 是如何大规模使用 Apache Spark 的

Facebook 经常使用数据驱动的分析方法来做决策。在过去的几年,用户和产品的增长已经需要我们的分析工程师一次查询就要操作数十 TB 大小的数据集。我们的一些批量分析执行在古老的 Hive[1] 平台( Apache Hive 由 Facebook 贡献于 2009 年)和 Corona[2] ...

2018-08-10 10:24:25

阅读数:227

评论数:0

扩展Spark ML来构建你自己的模型和变换器类型

尽管Spark ML管道提供了各种各样的算法,你仍可能想要额外的功能,并且不脱离管道模型。在Spark Mllib中,这算不上什么问题,你可以通过RDD的变换来实现你自己的算法,并继续下去。对于Spark ML 管道来说,同样的方法是可行的,但是我们会失去一些管道所具备的优良特性,包括自动执行元算...

2018-08-10 10:23:01

阅读数:154

评论数:0

Spark Streaming计算模型及监控

Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型,无状态和状态计算模型以及该两种模型的注...

2018-08-10 10:21:23

阅读数:175

评论数:0

基于Kafka与Spark的实时大数据质量监控平台

导读:微软的ASG (应用与服务集团)包含Bing,、Office,、Skype。每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。本文将介绍微软ASG大数据团队如何利用Kafka、Spark以及Elasticsearch...

2018-08-10 10:13:56

阅读数:229

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭