2019年11月_我是星星我会发光i

11月 10月 09月 08月 06月 04月

原创 JUC-volatile

1.JUC简述JUC-Java.util.concurrent：高并发中的一个工具类我们所在执行自己的业务逻辑时，通常都是单线程，这样就不会涉及到并发执行的情况，但是我们一旦启用多线程，就会有线程安全的状况发生，而JUC就是解决这个问题的一个工具，首先让我们了解一下JUC的几个特性，了解JUC前还得连接volatile2.我们先说说volatile这个关键字volatile：...

2019-11-28 19:25:27 8559

原创 Spark Streaming-Dstream转换

DStream上的原语与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种Window相关的原语。1.无状态转化操作无状态转化操作就是把简单的RDD转化操作应用到每个批次上，也就是转化DStrea...

2019-11-21 16:22:11 8443

原创 Spark Streaming-Dstream创建

Spark Streaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到Spark Streaming 的 Maven 工件中，而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。每个接收器都以 Spark 执行器程序中一个长期运行的任务的形式运行，因此会占据分配给应用的 CPU 核心。此外，我们还需要有可用的 CPU 核心来处理数据。这...

2019-11-21 11:25:34 8653

原创 Spark Streaming-Dstream入门

1.Wordcount案例（1）添加依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.1.1</version>&...

2019-11-21 10:05:09 8543

原创 Spark Streaming-概述

1.Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。...

2019-11-21 09:55:39 8448

原创 Spark SQL-数据源

一、通用加载/保存方法1. 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。 Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时，Spark SQ...

2019-11-21 08:38:04 8511

原创 Spark SQL-编程

1.SparkSession新的起点在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和Hi...

2019-11-20 22:48:07 8452

原创 Spark SQL-概述

1.什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。对比Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以...

2019-11-20 21:39:01 10097

原创 SparkCore-RDD编程进阶

一、累加器累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。1.系统累加器 ...

2019-11-20 16:39:40 8433

原创 SparkCore-数据读取与保存

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS、HBASE以及数据库。一、文件类数据读取与保存1.Text文件（1）数据读取:textFile(String)scala&...

2019-11-20 16:24:43 8441

原创 SparkCore-键值对RDD数据分区器

Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意：(1)只有Key-Value类型的RDD才有分区器的，非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围：0~numPa...

2019-11-20 11:19:45 8411

原创 SparkCore-RDD编程

一、编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(...

2019-11-20 10:06:51 8451

原创 Spark基础解析

一、Spark概述1.什么是Spark 1.1 定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎 1.2 历史2009年诞生于加州大学伯克利分校AMPLab,项目由Scala编写 2010年开源 2013年6月成为Apache的孵化项目 2014年2月成为Apache的顶级项目2.Spark的内置模块Spark Core：实现了...

2019-11-19 15:10:03 8378

原创 Spark中的算子

现在是2019年11月14日22点11分，刚看完尚硅谷老师spark的第二天视频，对于老师讲RDD中的算子特别感兴趣，于是写在这里记录一下目录一、value类型1、转换数据结构，形成新的RDD（map)2.改变数据结构，相当于数据的批处理(mapPartitions)3.分片的索引值,找出数据及其所在分区(mapPartitionsWithIndex)4.将每一个分区形成一...

2019-11-14 22:25:47 8856

kafka搭建与使用.doc

kafka集群搭建与使用，创建，删除，生产者，消费者，详细的描述了kafka怎么启动怎么使用怎么创建

2020-08-10

班级管理系统E-R图 Oracle数据库

班级管理系统是利用计算机来管理班级信息的计算机应用技术的创新。在计算机还未普及之前，班级管理都是靠手工实现，这样不仅浪费大量的时间、人力和物力，同时在信息的开放度和同学们的知情度方面不够透明。能够快速查询，从而减少管理方面的工作量，对于促进班级管理和提高学校教学质量具有重要意义。

2018-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人