Spark
九八年的尾巴
一个愿意分享和倾听的年轻人
展开
-
spark系列-之自定义累加器
https://tool.oschina.net/apidocs/apidoc?api=scala-docs-2.9.2:API文档 创建累加器 package com.sparksql import org.apache.spark.util.AccumulatorV2 import scala.collection.mutable class MyAccumulator extends AccumulatorV2[String,mutable.HashMap[String, Int]] {原创 2020-08-20 16:24:49 · 351 阅读 · 0 评论 -
ELK数据可视化-项目开始
对ELK不熟悉的可看之前博客,这里只对数据可视化做讲解 1.为数据表添加主键** 2.打开Elaticsearch 进入bin目录双击运行elasticsearch.bat命令,运行完成后访问 http://127.0.0.1:9200/ 端口 获得json字符串响应说明安装成功,ES集群信息 3.打开kibana 进入bin目录双击运行kibana.bat命令,运行后访问localhost:5601 进入到kibanaWeb页面即启动成功 4.修改导入数据配置 进入bin目录修改mysqltoes.co原创 2020-08-20 16:18:01 · 419 阅读 · 0 评论 -
Scala-echarte-2数据可视化
使用dataSet管理数据 @GetMapping("show2") public List<Food> show2(){ return foodService.queryAllFood(); } <script type="text/javascript"> // 基于准备好的dom,初始化echarts实例 var myChart = echarts.init(document.getElem原创 2020-08-20 16:13:02 · 440 阅读 · 0 评论 -
Scala-echarts数据可视化
https://echarts.apache.org/zh/index.html 将我们数据以可读性较高的图表展示出来:简单说就是前端用于做图标的东西 <html> <head> <meta charset="utf-8" /> <title></title> <meta charset="utf-8"> <!-- 引入 ECharts 文件 --> <script src原创 2020-08-16 22:40:37 · 1173 阅读 · 0 评论 -
spark系列(4)之sparkSQL
spark-core之前操作的一直都是RDD这个对象,而spark-sql换成了DataFrame,使用sql语句进行大数据操作 本质上不同,dataframe有些类似数据库二维表 RDD DataFrame 类似于二维表格式,除数据外保存数据结构信息 数据类型固定是Row,类型需要通过解析才能获得值 性能比RDD好,原因两点 定制化内存管理 数据以二进制的方式存在于非堆内存,节省了大量空间之外,还摆脱了GC的限制 优化的执行计划 查询计划通过Spark catalyst optimis原创 2020-08-16 22:37:11 · 229 阅读 · 0 评论 -
spark系列(3)core
SparkCore提供Spark最基础与最核心的功能 1:SparkContext: 通常而言,Driver Application的执行与输出都是通过SparkContext来完成的。在正式提交Application之前,首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储能力、计算能力、缓存、测量系统、文件服务、Web服务等内容,应用程序开发者只需要使用SparkContext提供的API完成功能开发。SparkContext内置的DAGSchedu原创 2020-08-16 22:35:48 · 97 阅读 · 0 评论 -
spark系列(2)之RDD常用方法
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。这里的弹性指的是RDD可以根据当前情况自动进行内存和硬盘存储的转换 在spark中所有的计算都是围绕着RDD操作的,每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上,并且RDD也可以缓存到内存中 RDD支持两种操作:转化操作和行动操作。 RDD 的转化操作是返回一个新的 RDD的操作,新的RDD则包含了如何从其他RDD原创 2020-08-16 22:32:28 · 694 阅读 · 0 评论 -
spark系列(1)之初步入门
Spark是一种由scala编写的快速、通用、可扩展的大数据分析引擎。计算引擎 优势就是集合数据,去计算统计其中的内容。通过计算出的统计,对未来的行为做出一些依据行为 之前的hadoop mapreduce也是计算引擎。内存计算下Spark比Hadoop快100倍 使用Scala代码去编写spark。spark除了scala语言还支持java和php 特点 1)快:与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执原创 2020-08-05 22:50:15 · 138 阅读 · 0 评论