leetcode 15 三数之和 给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组。注意:答案中不可以包含重复的三元组。示例:给定数组 nums = [-1, 0, 1, 2, -1, -4],满足要求的三元组集合为:[ [-1, 0, 1], [-1, -1, 2]]解法一两层for循...
hive select 报错 Hive用 load data数据到建好的表里后使用select查询语句报错,一直报java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException经过检查,发现是数据文件中的字段顺序和表字段顺序不对应。原因:select查询插入数据,字段值顺序要与表中...
大数据之路 阿里巴巴大数据实践 读书笔记 一 、总述人类正在从IT时代走向DT时代。现在的数据呈爆炸式增长,其潜在的巨大价值有待发掘。但是如果不对数据进行有序、有结构的分类组织和存储,它将变成一场灾难。在阿里内部,数据的存储达到EB级别。这些给数据采集、存储、计算都带来了极大的挑战。随着数阿里内部数据量的剧增,以及日益丰富的业态,这些都给大数据系统的构建提供了更复杂的要求。本书介绍的阿里巴巴大数据系统架构,就是为了满足不断变化的业务...
Tuning Spark( 内存管理和数据序列化) 由于大多数spark计算的内存特性,spark程序可能会受到集群中任何资源的瓶颈:CPU、网络带宽或内存。大多数情况下,如果数据适合内存,瓶颈是网络带宽,但有时还需要进行一些调整,例如以序列化形式存储RDD,以减少内存使用。数据序列化序列化在任何分布式应用程序的性能中起着重要的作用。 很慢的将对象序列化或消费大量字节的格式将会大大减慢计算速度。 这可能是优化 Spark 应用程序的第一件事。 ...
部署指南——部署模式 Spark Standalone ModeSpark 提供了一个简单的 standalone 部署模式。您可以手动启动 master 和 worker 来启动 standalone 集群,或者使用我们提供的 launch scripts 脚本。可以为了测试而在单个机器上运行这些进程。安装 Spark Standalone 集群安装 Spark Standalone 集群,只需要将编译好的版本...
部署指南——集群模式概述和提交应用 集群模式概述组件Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序)。具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standlone Cluster Manager,或者 Mesos,也可以使用 YARN),它们...
Structured Streaming Programming Guide 概述结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。他可以像表达静态数据的批处理计算一样表达流式计算。快速示例监听本地netcat服务器的输入内容 实时计算每个单词出现的次数在屏幕上打印可以通过运行下载的Spark目录下的程序直接启动 再另外启动一个netcat服务器 再服务器终端输入内容即可在控制台看见相应的输出编程模型结构化流中的关键思想是将实时数据流视为连续追...
Spark SQL, DataFrames and Datasets Guide——性能调优 对于某些工作负载,可以通过缓存内存中的数据或打开一些实验选项来提高性能。Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表dataFrame.cache()。然后,Spark SQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。您可以调用spark.catalog.uncacheTable(“tab...
Spark SQL, DataFrames and Datasets Guide——数据源 Generic Load/Save Functions(通用加载保存功能)在最简单的形式中, 默认数据源(parquet, 除非另有配置 spark.sql.sources.default )将用于所有操作。也可以指定选项。DataFrames 也可以使用 saveAsTable 命令作为 persistent tables (持久表)保存到 Hive metastore 中,对于 file-...
Spark SQL, DataFrames and Datasets Guide——Getting Started Getting Started起点: SparkSessionSpark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName...
Spark编程指南-RDD编程指南 概述Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program(驱动程序)组成。Spark 提供的主要抽象是一个弹性分布式数据集(RDD)RDD 可以从一个 Hadoop 文件系统或其他地方获得。了让它在整个并行操作中更高效的重用,也许会让 Spark persist(持久化)一个 RDD 到内存中。最后,RDD 会自动的从节点故障中恢复。...
Spark编程指南-快速开始 本教程简要介绍了如何使用Spark。我们将首先通过Spark的交互式shell(在Python或Scala中)介绍API,然后展示如何使用Java,Scala和Python编写应用程序。首先,从Spark网站下载Spark的打包版本 。由于我们不会使用HDFS,您可以下载任何版本的Hadoop的软件包。请注意,在Spark 2.0之前,Spark的主要编程接口是Resilient Distri...
Spark的scala版本和sbt的scala版本不同打包提交运行失败 在提交sbt的jar包到Sprak运行时:报异常:Caused by: java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize at SimpleApp$.$deserializeLambda$(SimpleApp.scala) ... 60 moreC...
Spark官方文档读书笔记概述 序言本读书笔记基于Spark官方文档2.4.0版本,在阅读英文源文档时候借助谷歌翻译完成。同时在具有疑惑的地方参考网上已翻译的基于2.2.0版本的Spark文档。概述Apache Spark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括Spark SQL用于SQL和结构化数据的处理...
strom运行jar包报异常 Exception in thread "main" java.lang.NoClassDefFoundError: backtype/storm/topology/I storm集群提交jar包运行时 一直报异常:Exception in thread "main" java.lang.NoClassDefFoundError: backtype/storm/topology/IRichSpout经过几天的挣扎 发现是strom版本问题strom官网有句话:In the latest version, the class packages have ...
hbase启动后hmaster一会自动挂掉,hregionserver启动不了 背景是这样 hbase单机伪分布式 zookeeper采用的虚拟机的单节点zookeeper执行start-hbase.sh后问题一启动了hmaster 一会自己又挂掉了解决:zookeeper问题 没启动好检查zoo.cfg发现里面配置的server ip 不对问题二hregionserver无法启动: 查看日志 显示16020端口占用和hmaster冲突解决:使...
Hadoop集群中DataNode启动不了 主要原因是因为datanode的clusterID 和 namenode的clusterID 不匹配解决办法停止Hadoop的所有进程删除每个节点Hadoop目录下 logs 和 tmp手动创建每个节点下 logs 和 tmp 文件夹到Hadoop/bin目录下,重新格式化:hdfs namenode -format没有问题后,重新启动hadoop集群,DataNode...
hadoop分布式集群搭建 Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。这篇文件介绍如何搭建完全分布式的hadoop集群,一个主节点,三个数据节点为例来讲解。基础环境环境准备1、软件版本四台服务器配置,系统:centos6.5、内存:1G、硬盘:20G四台服务器分配的IP地址:192.168.0.71/72/73/74规划:71用作主节点用作hado...
集群各机器时间问题 集群搭建遇到什么怪莫名其妙的问题 注意集群中机器的时间一定要保持一致 最好和现在真实时间相同hadoop集群各种问题都是由于此导致的 解决了整整一天才发现这个问题下次一定提醒自己要注意集群之间 各机器时间的问题...