2019年03月_南风剑声

08月 03月 02月 01月

原创读书笔记

Spark官方文档读书笔记概述

2019-03-12 19:57:16 180 1

原创大数据之路阿里巴巴大数据实践读书笔记

一、总述人类正在从IT时代走向DT时代。现在的数据呈爆炸式增长，其潜在的巨大价值有待发掘。但是如果不对数据进行有序、有结构的分类组织和存储，它将变成一场灾难。在阿里内部，数据的存储达到EB级别。这些给数据采集、存储、计算都带来了极大的挑战。随着数阿里内部数据量的剧增，以及日益丰富的业态，这些都给大数据系统的构建提供了更复杂的要求。本书介绍的阿里巴巴大数据系统架构，就是为了满足不断变化的业务...

2019-03-19 16:52:43 2293

原创 Tuning Spark（内存管理和数据序列化）

由于大多数spark计算的内存特性，spark程序可能会受到集群中任何资源的瓶颈：CPU、网络带宽或内存。大多数情况下，如果数据适合内存，瓶颈是网络带宽，但有时还需要进行一些调整，例如以序列化形式存储RDD，以减少内存使用。数据序列化序列化在任何分布式应用程序的性能中起着重要的作用。很慢的将对象序列化或消费大量字节的格式将会大大减慢计算速度。这可能是优化 Spark 应用程序的第一件事。 ...

2019-03-13 17:01:40 179

Spark Standalone ModeSpark 提供了一个简单的 standalone 部署模式。您可以手动启动 master 和 worker 来启动 standalone 集群，或者使用我们提供的 launch scripts 脚本。可以为了测试而在单个机器上运行这些进程。安装 Spark Standalone 集群安装 Spark Standalone 集群，只需要将编译好的版本...

2019-03-13 16:43:09 767

原创部署指南——集群模式概述和提交应用

集群模式概述组件Spark 应用在集群上作为独立的进程组来运行，在您的 main 程序中通过 SparkContext 来协调（称之为 driver 程序）。具体的说，为了运行在集群上，SparkContext 可以连接至几种类型的 Cluster Manager（既可以用 Spark 自己的 Standlone Cluster Manager，或者 Mesos，也可以使用 YARN），它们...

2019-03-13 16:25:36 223

原创 Structured Streaming Programming Guide

概述结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。他可以像表达静态数据的批处理计算一样表达流式计算。快速示例监听本地netcat服务器的输入内容实时计算每个单词出现的次数在屏幕上打印可以通过运行下载的Spark目录下的程序直接启动再另外启动一个netcat服务器再服务器终端输入内容即可在控制台看见相应的输出编程模型结构化流中的关键思想是将实时数据流视为连续追...

2019-03-13 16:01:39 351

原创 Spark SQL, DataFrames and Datasets Guide——性能调优

对于某些工作负载，可以通过缓存内存中的数据或打开一些实验选项来提高性能。Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表dataFrame.cache()。然后，Spark SQL将仅扫描所需的列，并自动调整压缩以最小化内存使用和GC压力。您可以调用spark.catalog.uncacheTable(“tab...

2019-03-13 13:59:01 192

原创 Spark SQL, DataFrames and Datasets Guide——数据源

Generic Load/Save Functions（通用加载保存功能）在最简单的形式中, 默认数据源（parquet, 除非另有配置 spark.sql.sources.default ）将用于所有操作。也可以指定选项。DataFrames 也可以使用 saveAsTable 命令作为 persistent tables （持久表）保存到 Hive metastore 中，对于 file-...

2019-03-13 13:50:45 172

原创 Spark SQL, DataFrames and Datasets Guide——Getting Started

Getting Started起点： SparkSessionSpark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession，只需使用SparkSession.builder()：import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName...

2019-03-13 13:01:23 137

原创 Spark编程指南-RDD编程指南

概述Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program（驱动程序）组成。Spark 提供的主要抽象是一个弹性分布式数据集（RDD）RDD 可以从一个 Hadoop 文件系统或其他地方获得。了让它在整个并行操作中更高效的重用，也许会让 Spark persist（持久化）一个 RDD 到内存中。最后，RDD 会自动的从节点故障中恢复。...

2019-03-13 11:41:43 184

原创 Spark编程指南-快速开始

本教程简要介绍了如何使用Spark。我们将首先通过Spark的交互式shell（在Python或Scala中）介绍API，然后展示如何使用Java，Scala和Python编写应用程序。首先，从Spark网站下载Spark的打包版本。由于我们不会使用HDFS，您可以下载任何版本的Hadoop的软件包。请注意，在Spark 2.0之前，Spark的主要编程接口是Resilient Distri...

2019-03-12 19:56:02 335

原创 Spark的scala版本和sbt的scala版本不同打包提交运行失败

在提交sbt的jar包到Sprak运行时：报异常：Caused by: java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize at SimpleApp$.$deserializeLambda$(SimpleApp.scala) ... 60 moreC...

2019-03-12 19:33:59 1769

原创 Spark官方文档读书笔记概述

序言本读书笔记基于Spark官方文档2.4.0版本,在阅读英文源文档时候借助谷歌翻译完成。同时在具有疑惑的地方参考网上已翻译的基于2.2.0版本的Spark文档。概述Apache Spark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具，包括Spark SQL用于SQL和结构化数据的处理...

2019-03-12 17:04:24 141

ntfs for mac 2018 终生免费版（已pj）

无需pj 免费版可用于在mac下读取ntfs类型的磁盘其他版本收费的这个不收费

2018-12-14

paragon ntfs for mac15破解版

使用方式： · 双击安装“Paragon NTFS for Mac 15” · 请确认重新启动。 · 进入已安装映像中的“Paragon NTFS for Mac 15”文件夹。将Mac 15.app的Paragon NTFS替换为现有应用程序的应用程序文件夹。 · 现在进入已安装映像中的 Library 文件夹。 · 将DMG里的 Library 文件夹复制到 Paragon NTFS for Mac 15 相对应的 Library 文件夹内 · 重启，如果Paragon NTFS表示它没有激活，忽略它，此时软件处于完全激活模式下工作，没有时间限制。 · 激活成功！

2018-12-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

南风晚