PeekMe10086-CSDN博客

原创 SparkStreaming的回顾

SparkStreaming是什么？sparkStreaming是用于流式数据处理的。他支持很多数据源：kafka、flume和简单的TCP套接字等。数据输入后可用于spark的高度抽象源语如：map、window等运算，而运算结果可以存储在hdfs或者数据库中。和RDD的概念很相似，sparkStreaming使用离散流（discretized stream）作为数据的抽象，叫做DStream，而DStream是由这些rdd所组成的序列（因此得名“离散化”）Dstream入门WordCount

2020-08-29 19:20:13 228 1

原创 SparkSQL知识点回顾

什么是Spark SQLsparkSQL是spark提供的用来处理结构化数据的一个模块，他提供了两个编程抽象DateFrame和DateSet。什么是DataFrame与RDD类似，不过DateFrame中除了存储数据还存储了结构化的信息如图：与Hive类似，DateFrame也提供了兴struct、array和map，并且DateFrame在底层会对我们的sql进行优化所以其实际上执行效率是要高于RDD的。什么是DataSet1）是Dataframe API的一个扩展，是Spark最新的数据

2020-08-25 10:48:47 298

原创 Spark算子API解析

首先要说明RDD的算子一共分为两种一种为行动算子一种为transformations算子。依赖RDDs通过操作算子进行转换，转换得到的新RDD包含了从其他RDDs衍生所必需的信息，RDDs之间维护着这种血缘关系，也称之为依赖。如下图所示，依赖包括两种，一种是窄依赖，RDDs之间分区是一一对应的，另一种是宽依赖，下游RDD的每个分区与上游RDD(也称之为父RDD)的每个分区都有关，是多对多的关系。缓存如果在应用程序中多次使用同一个RDD，可以将该RDD缓存起来，该RDD只有在第一次计算的时候会

2020-08-23 19:06:14 480

原创 SparkCore复习

Spark的组成模块sparkCore：实现了spark的基本功能，包括任务调度、内存管理、错误恢复。sparkCore里面还包含了弹性数据集（RDD）的API定义sparkSql：是spark用来操作结构化数据的程序包。我们可以通过sql或者hive的hsql的方式来查询数据sparkStreaming：是spark提供的对实时数据进行处理的组件sparkMLlib：提供常见的机器学习功能的程序包集群管理：spark支持可以自各种集群管理器是上运行：mesos、yarn或者自带的简易调度器

2020-08-22 19:11:20 400

原创 Scala

Scala的变量声明变量var i:Int=0var score:Double=1.1注意事项：1、声明变量的时候类型可以省略，叫做类型推断2、类型一旦确定就不能修改说明scala是强类型语言3、var声明的表示为可变变量，val声明的为不可变变量4、变量声明的时候必须有初始值Scala的类型介绍：1、Scala是完全面向对象的，所以没有原生类型：比如int，double等2、Scala的数据类型分为两大类：AnyVal（值类型）、AnyRef（引用类型），但他们都是对象

2020-08-19 18:51:37 223

原创 Hbase总结

HBase 的架构

2020-08-16 20:24:53 154

原创 Hive

Hive基本概念什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序Hive的优缺点1)操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。2)避免了去写MapReduce，减少开发人员的学习成本。Hive优势在于处理大数据，对于处理小数据没有优势5)Hive支持用户自定义函数，用户可以根据自己的需求来实

2020-08-16 10:27:18 600

原创 Hadoop之Mapreduce

MapReduce 定义Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上。MapReduce 编程定式Mapreduce用户编写程序的时候主要分为三个部分：Mapper，Reduce，Driver：Mapper阶段首先我们要继承mapper类为父类确定输入的key，value的形式将mapp

2020-08-14 18:29:56 312

原创大数据之Hadoop知识点总结

Hadoop 的组成Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统Hadoop MapReduce：一个分布式的离线并行计算框架Hadoop Yarn：作业调度系统与集群管理框架Hdoop Common：支持其他模块的工具模块。下面我们首先来阐述环境搭建之后开始逐一的回顾上述模块的知识。Hadoop 的环境搭建将虚拟机的网络模式切换到NAT克隆多台虚拟机修改虚拟机静态ip1、在终端命令窗口输入下面代码：vim /etc/udev/rules.d/70-pe.

2020-08-12 21:38:28 739

原创 mysql

http://note.youdao.com/s/3bPMaKyt

2020-08-10 19:11:08 112

原创 mysql索引

mysql底层采用b+树的数据结构存储数据：数据只存储于叶子节点，基于mylsam存储引擎则存储的是数据地址，而基于innodb存储引擎的则存储的是索引行的其他数据。之所以不用树形结构因为其在某些特定情况下会退化为链表之所以不用红黑树是因为其在存储数据时会导致树的深度过深，导致叶子节点查询较慢，且因其为链式存储所以会导致大量磁盘io，所以采用了b+树的结构。其每层存储16kb的数据。树的第一层长期在内存中。看到了此数据结构最底层叶子节点和节点之间有一个箭头，其实应该是一个双向指针，目的就是为了当

2020-08-10 10:33:26 102

原创 ConcurrentHashMap1.8

ConcurrentHashMap的put方法public V put(K key, V value) { return putVal(key, value, false); } final V putVal(K key, V value, boolean onlyIfAbsent) { if (key == null || value == null) throw new NullPointerException(); int h..

2020-08-07 20:09:09 420

原创 ConcurrentHashMap1.7

回忆HashMap多线程问题在说ConcurrentHashMap之前我们回忆一下我们常用的HashMap在多线程环境中会有什么问题：当有多个线程同时操作hashmap的时候很可能造成循环链表从而导致在get的时候陷入死循环，而ConcurrentHashMap就是问了解决多线程下hashmap的问题。ConcurrentHashMap的基本原理不同与hashmap，ConcurrentHashMap的结果组成如下：图一下面我们从具体的代码开始慢慢揭开它的面纱1. Concurre.

2020-08-03 11:03:01 318