2020年09月_zhouyanjun_

原创 sqlyog连接mysql错误码2058 正确处理方式

首先保证你的MySQL数据库安装成功cmd命令下 mysql -uroot -p这样就启动成功了。。。sqlyog配置新连接报错：错误号码 2058，是因为mysql 密码加密方法变了。先登录你的数据库，然后执行ALTER USER ‘root’@‘localhost’ IDENTIFIED WITH mysql_native_password BY ‘password’;password是你的登陆密码。查看mysql的端口号：先登录你的数据库，然后执行 mysql> sh

2020-09-30 01:07:27 1777 2

原创 MySQL8.0安装——亲身实践版

有了安装包之后。4.勾选【I accept the license terms】然后点击【Next】。5.选择【Custom】然后点击【Next】。6.双击【MySQL Servers】。7.双击【MySQL Server】。8.双击【MySQL Server 8.0】。9.选择【MySQL Server 8.0.17 - X64】，然后点击向右的箭头。10.双击【MySQL Server 8.0.17-X64】。11.勾选【Document.

2020-09-30 00:48:47 153

原创博客所记录内容

博客不是什么都往上记录：从今天起，博客只会记录自认为有价值的东西。对于一些常识性知识，不在记录。

2020-09-28 23:27:18 105

原创 Flink中的状态管理

Flink中的状态管理1、Flink中的状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3E3FtJlw-1601270265116)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20200902181631638.png)]由一个任务维护，并且用来计算某个结果的所有数据，都属于这个任务的状态可以认为状态就是一个本地变量，可以被任务的业务逻辑访问Flink 会进行状

2020-09-28 13:17:53 549 2

原创 Flink中的Window

Flink中的Window一、Window的分类1、Time Window滑动窗口:SlidingEventTimeWindows（.window(window assigner)由固定的窗口大小和滑动间隔组成，特点：时间对齐，窗口长度固定，可以由重叠滚动窗口:TumingEvenTimeWindows (.window(window assigner)将数据依据固定长度对数据进行切片*`特点：时间对齐，窗口长度固定，没有重叠，*会话窗口:时间无对齐，只要是在设定的时间间隔内没

2020-09-28 13:17:09 206

原创 spark的累加器解析及小案例

val sum = sc.longAccumulator("sum1")/** * Create and register a long accumulator, which starts with 0 and accumulates inputs by `add`. */ def longAccumulator(name: String): LongAccumulator = { val acc = new LongAccumulator register(acc, n

2020-09-27 23:33:11 539

原创 Spark任务调度源码分析

自上而下的思想提交job ——获取宽依赖 ———创建stage——创建Task//任意行动算子，点进去resultRDD.collect()def collect(): Array[T] = withScope { val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)**//runJob运行作业任务** Array.concat(results: _*) }def runJob[T, U

2020-09-26 20:27:47 269

原创 Kafka总结

Kafka总结一、kafka概述1.1 kafka定义Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。订阅式模式：一对多的关系，一个生产者，数据存储在消息队列中，多个消费者均可从这个消息对列中获取数据，消费者消费数据之后不会清除消息。1.2 框架说明一般都是从命令行和API两个方面进行讲解。数据处理框架需要从数据的安全性以及效率两个方面深入了解。1.3 Kafka涉及的关键词1. producer: 消息的生产者，即为向kafka broker

2020-09-24 22:52:03 492

原创写过的shell脚本

1 集群分发脚本xsync#!/bin/bash#1. 判断传入参数的总个数if [ $# -lt 1 ] exit;fi#2. 遍历集群所有机器，for循环for host in hadoop102 hadoop103 hadoop104 #执行第一次host是hadoop102；执行第二次host是hadoop103；执行第三次host是hadoop104**do** echo ==================== $host ====================

2020-09-24 22:24:18 502

原创 Spark基本知识-待修改版

1.Spark内置模块包括哪些？请分别简述其功能。Spark Core:实现了Spark 的基本功能:任务调度内存调度错误恢复与存储系统交互对RDD(Resilient Distributed DataSet)的API的定义Spark SQL:是Spark用来操作结构化数据的程序包. 可以通过SQL或Hive版本的(HQL)查询数据.Spark Streaming:是Spark提供的对实时数据进行流式计算的组件.提供了用于操作数据流的API,且与Spark Core中的RDD

2020-09-24 00:21:16 248

原创 FileStatus类介绍

FileStatus类介绍FileStatus对象封装了文件系统中文件和目录的元数据，包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。FileStatus对象一般由FileSystem的getFileStatus()方法获得，调用该方法的时候要把文件的Path传递进去。FileStatus字段解析private Path path; // Path路径private long length; // 文件长度priva

2020-09-23 17:52:17 1170

原创创建RDD的分区切片及读取分区中数据的源码解析

Desc:通过读取外部文件的方式创建RDD的分区规则-在textFile中，第二个参数为minPartitions表示最小分区数，注意是最小，不是实际最终磅定的分区数-在实际分区的过程中，会根据处理的文件的总大小（字节数）初最小分区数进行相除运算>余数为0，那么最小分区数，就是实际的分区数>余数不为0，那么实际分区数大于最小分区数val rdd: RDD[String] = sc.textFile("input", 3)//minPartitions表示最小分区数def

2020-09-23 15:22:53 513

原创 Flume练习题

Flume练习题题目1需求：使用Flume监听一个端口，收集该端口数据，并打印到控制台。#步骤一：agent Namea1.sources = r1a1.sinks = k1a1.channels = c1#步骤二：sourcea1.sources.r1.type = netcata1.sources.r1.bind = localhost a1.sources.r1.port = 44444 #步骤三： channel selectora1.sources.r1.selec

2020-09-21 14:04:44 1256

原创 Flume

Flume一、写flume的步骤1.0.0 Flume 事务1.0.1 Flume Agent内部原理图11.1 画拓扑图总结：一个channel只能输出一个结果文件。一个flume agent 由 source + channel + sink 构成，类比于mapper + shuffer + reducer。1.1.1 确定source类型常用类型： 1) arvo: 用于Flume agent 之间的数据源传递

2020-09-21 14:02:53 248

原创 zookeeper总结

zookeeper总结总结：时间：2020.05.02一、zookeeper入门1.1 概述-- 理解1) Apache一个分布式项目；2）是一个基于观察者模式设计的分布服务管理框架，负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦数据发生变化，则zookeeper通知观察者。-- zookeeper = 文件系统 + 通知机制。1.2 zookeeper特点-- 特点1) 每一节点都有一个不重复的myid标识zookeeper集群；2）一个领导者（le

2020-09-21 13:58:17 252

原创 8.Spark内核

Spark内核所谓的内核，就是Spark内部核心原理。一、内核解析的分解Spark应用的提交Spark内部的通信Spark作业的调度任务的执行spark内存管理二、 SparkSubmit--本章节讲述job提交应用以后，环境的准备工作。主要包含以下：1. spark向yarn提交job的过程2. yarn中application、driver、executor、container是如何相互响应提交应用bin/spark-submit \--class org.a

2020-09-20 16:43:04 133

原创 7.SparkStreaming

SparkStreaming一、SparkStreaming 介绍 --0. 几个概念 a、'实时'：数据处理的延迟，以毫秒级进行响应 b、'离线'：数据处理的延迟，以小时、天、月、年为级别响应 c、'批处理'：数据处理的方式，一次处理一批数据 d、'流式处理'：数据处理的方式，和水流相似，来一条数据处理一条数据，来一点处理一点，一个一个的处理。 --1. 什么是SparkStreaming a、流式数据

2020-09-20 16:40:35 130

原创 6.SparkSQL

SparkSQL一、 SparkSQL概述1.1 SparkSQL是什么？Spark SQL是Spark用于"结构化数据"(structured data)处理的Spark模块1.2 Hive 和 SparkSQL解析Hive和SparkSQL之间的关系1. Hive是SQL-on-Hadoop的工具，但由于底层还是基于MR，所以效率低。2. 产生了大量提升SQL-on-Hadoop的工具，表现较为突出的是：DrillImpalaShark3. Shark是Spar

2020-09-20 16:40:15 152

原创 5.Spark之WordCount

Spark 之 WordCount一、14种wordcount实现方式//数据准备及环境连接： val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("map") val sc = new SparkContext(sparkConf) val rdd1: RDD[String] = sc.makeRDD(List("hadoop scala", "spark spark hel

2020-09-20 16:37:21 104

原创 4. Spark实战项目——电商指标统计

Spark实战项目——电商指标统计一、引言在实战项目中，根据不同的需求进行编程，由于需求不同，核心的计算逻辑会不同，但是其他的一些代码，如获取环境变量、读取文件等等操作是固定。本次我们采用编写框架的模式来完成我们的需求，这样的优势有：代码的扩展性强；减少代码的冗余；将相同的功能进行封装，降低代码的耦合度；将代码进行分层次，代码的逻辑看起来就非常的清晰。采用框架的方式，在企业实际生产环境中是非常有优势的，希望大家能够学以致用。1.1 框架设计原理

2020-09-20 16:36:14 1174 1

原创 3.Spark编程2

Spark编程2接2.Spark架构及编程五、Spark核心编程5.6 累加器5.6.1 累加器基本介绍-- 1.什么是累加器？分布式共享只写变量，使用累加器完成数据的累加。 1. 分布式：每一个executor都拥有这个累加器 2. 共享：Driver中的变量原封不动的被executor拥有一份副本 3. 只写：同一个executor中可以对这个变量进行改值，其他的executor不能读取。 -- 2.累加器用来解决什么问题？ 1. 想通过没有

2020-09-20 16:35:23 93

原创 2.Spark架构及编程

Spark架构及编程接Spark环境的安装四、Spark运行框架4.1 运行框架--1. Spark框架可以理解三个部分组成第一部分： Driver + Executor --> 任务执行和调度第二部分： Master + Worker --> Saprk自身的资源调度框架第三部分： Cluster Manager --> 集群管理，中间件Driver + Executor-- Driver：驱动器 1. 用于执行Spark任务中的m

2020-09-20 16:34:53 199

原创 1.Spark环境的安装

Spark环境的安装一、 Spark简介1.1 Spark是什么是一种基于内存的快速、通用、可拓展的大数据分析计算引擎。1.2 Hadoop 和 Spark关联hadoop ：2013年10月发布2.X (Yarn)版本；spark ： 2013年6月，Spark成为了Apache基金会下的项目。Spark可以理解为hadoop MR的升级版。1.2.1 hadoop发展历史-- 1.X 版本 --2011年发布从架构的角度存在很多的问题1. Namenode 是单

2020-09-20 16:34:27 231

原创 Scala分布式计算

分布式计算应用1.需求-- 一个发送端向多个接收端发送数据，接收端接收数据以后并进行处理，最后将数据返回给发送端，发送端将计算结果收回并打印在控制台。2.需求分析2.1 搭建模型-- 一个发送端连接多个接收端，然后分别进行发送数据，此时存在的问题：-- 当服务器接收到数据以后，计算需要很长一段时间时，如果客户端一直等着服务器返回数据，这是不合理的。2.2 优化1 -- 客户端发送数据给服务端以后，断开连接，等服务器计算数据完成以后，服务器去连接客户端，将计算完成以后的结果返回2

2020-09-20 16:33:37 219

原创 Scala总结终结篇

Scala总结终结篇接Scala总结下篇八、集合8.13 自定义排序 SortWith --自定义排序： 1.方法：sortWith(形参)，返回值为经过自定义排序以后的集合； 2.形参：是一个函数，函数形参为：集合中的两个元素，参数1：第一个元素left；参数2：第二个元素right；函数返回值为：boolean类型，true和false 3.排序规则：

2020-09-18 23:14:33 478 1

原创 Scala总结下篇

Scala总结之下篇1接scala总结之中篇八、集合 (重点 )8.1 简介1. Scala集合分为： Seq ：序列 Set ：集合 Map ：映射2. 所有的集合都扩展了自身的Iterable特质3. scala提供了可变和不可变集合可变集合 : scala.collection.mutable 不可变集合： scala.collection.immutable 4. 不可变并不是变量本身的值不可变，而是变量指向的那个内存地址不可变

2020-09-18 23:13:35 188

原创 Scala总结中篇

Scala总结（中篇）接Scala总结（上篇）补充和复习0.1 练习题目1：如果想把一个任意的数字A通过转换后得到它的2倍，那么这个转换的函数应该如何声明和使用 def fun1(A: Double) = { 2 * A } val result1 = fun1(10) println(result1) //20.0题目2：如果上一题想将数字A转换为任意数据B（不局限为数字），转换规则自己定义，该如何声明 //定义函数，转换的规则通过匿名函数

2020-09-18 23:13:05 231

原创 Scala总结上篇

Scala 总结(上篇)一、java知识点重新认识1.1 静态代码块-- 问题：静态代码块一定会执行吗？-- 回答：不一定，那如何理解呢？之前的理解是：当一个类被加载以后，则这个类中静态代码块一定会执行，则是如何理解类被加载这件事情呢？通过如下的例子发现，加了final属性的类，通过反编译发现，该属性的赋值操作不是在静态代码中执行，导致静态代码块没有被加载。--原因是：调用代码1加载过程：加载age属性-->加载静态代码块-->在静态代码块中执行赋值age=20操作调用代

2020-09-18 23:12:12 313

原创 sql执行顺序

1）SQL的书写顺序SELECT- DISTINCT- FROM- JOIN ON- WHERE- GROUP BY- HIVING- ORDER BY- LIMIT2）真正执行的顺序：随着Mysql版本的更新换代，其优化器也在不断的升级，优化器会分析不同执行顺序产生的性能消耗不同而动态调整执行顺序。下面是经常出现的查询顺序：FROM- ON- JOIN- WHERE- GROUP BY- HAVING- SELECT- DISTINCT- ORDER BY- LIMIT3）外连接外连接确定主从

2020-09-18 23:05:15 128

原创数据清洗

数据清洗一、背景-- 1. 清洗的原因：在数仓项目中，数据经常不是我们想要的，数据可能存在不完整的情况，或有一些null，或者格式不对，那么我们需要对数据进行清洗。-- 2. 本案例的事件： --用户数据： '一条数据' barelypolitical 151 5106 '每个字段代表的含义' uploader:barelypolitical videos: 151 friends: 5106 --v

2020-09-18 23:03:29 686

原创 SQL开发

SQL开发第1章：SQL概述SQL：Structured Query Language结构化查询语言，它是使用关系模型的数据库应用语言，由IBM上世纪70年代开发出来。后由美国国家标准局（ANSI）开始着手制定SQL标准，先后有SQL-86，SQL-89，SQL-92，SQL-99等标准。1. SQL的语言规范mysql对于SQL语句不区分大小写，SQL语句关键字尽量大写SQL 可以写在一行或者多行。为了提高可读性，各子句分行写，必要时使用缩进关键字不能被缩写也不能分行值，除了数值型，字符

2020-09-18 23:02:07 1814

原创 MySQL数据库

typora-root-url: MySQL数据库.assetsMySQL数据库一、为什么要使用数据库持久化(persistence)：把数据保存到可掉电式存储设备中以供之后使用。大多数情况下，特别是企业级应用，数据持久化意味着将内存中的数据保存到硬盘上加以”固化”，而持久化的实现过程大多通过各种关系数据库来完成。持久化的主要作用是将内存中的数据存储在关系型数据库中，当然也可以存储在磁盘文件、XML数据文件中。二、什么是数据库2.1 数据库的相关概念DB：数据库（Datab.

2020-09-18 23:01:27 721

原创 Hive自定义函数

Hive自定义函数一、概述--1. 在hive中有三种自定义函数：1. UDF ：一进一出 --一行变一行2. UDTF : 一进多出 -- 一行变多行3. UDAF ：多进一出 -- 多行变一行-- 2. 实现步骤： a、进入函数的是什么参数 b、希望得到什么结果 c、考虑通用性二、UDTF函数2.1 UDTF解析-- 1. 说明A custom UDTF can be created by extending the GenericUDTF abstr

2020-09-18 23:00:44 854

原创 Hive 总结

Hive 总结总结人：周彦君0.补充0.1 什么是hive1. Hive：由Facebook开源用于解决'海量结构化日志'的数据统计'工具'。2. Hive是基于Hadoop的一个'数据仓库工具'，可以将结构化的数据文件'映射'为一张表，并提供类SQL查询功能。3. '本质'：将HQL转化成MapReduce程序4. '原理介绍' （1）Hive处理的数据存储在HDFS （2）Hive分析数据底层的实现是MapReduce （3）执行程序运行在Yarn上0.2 优

2020-09-18 22:54:09 699

数据开发探索者