关于我转生变成程序猿这档事-CSDN博客

原创【完结】mysql经典50道题自我练习

mysql经典50道题自我练习测试数据和练习题均转载自CSDN博主@启明星的指引的文章sql语句练习50题(Mysql版)，用于mysql的每日自我练习表名和字段–1.学生表Student(s_id,s_name,s_birth,s_sex) --学生编号,学生姓名, 出生年月,学生性别–2.课程表Course(c_id,c_name,t_id) – --课程编号, 课程名称,...

2020-03-08 22:50:59 683

原创【H2Database】通过官方文档学习 H2 数据库，从了解到实践

H2 Database概述下载安装1. 下载2. 安装3. 启动4. 测试概述→点击这里，进入 H2 官网链接H2 数据库是一个 Java 开发的嵌入式数据库，它本身就是一个 jar 包，可以直接嵌入到应用项目中。官网给出了主要特点有：▷ 速度快▷ 开源▷ 支持 JDBC API▷ 拥有嵌入式模式和服务器模式▷ 内存存储的数据库▷ 拥有基于浏览器的控制台应用程序▷ 占用空间小：大概 2MB 左右的 jar 包文件下载安装1. 下载H2 下载地址：https://h2datab

2021-01-26 15:41:07 1575

原创【ZooKeeper】从基础知识到应用实践

ZooKeeper1. 理论基础知识1.1 概述1.2 架构组成1.3 主要特点1. 理论基础知识1.1 概述ZooKeeper 是一个致力于分布式协调服务的开源框架，主要是用来解决分布式集群中经常受困扰的一致性问题（比如避免同时操作同一数据时造成的数据脏读问题）。从本质来看，ZooKeeper 其实是一个分布式的小文件存储系统，提供目录树的数据存储方式，并可以对树中的节点进行有效管理（也就像平常电脑系统对文件夹和文件的管理）。ZooKeeper 还提供了给客户端监控存储在其中内部数据的功能。从

2021-01-20 15:16:52 733

原创关于在 Java 调用 Kafka 的 ConsumerAPI 之后无法消费的问题 [‘consumer‘ has raw type, so result of poll is erased ]

记录一下工作中遇到的关于 Kafka 的问题，具体工作流程是 Mysql 通过 DataX 同步到 Kafka 中，再通过 DataX 把 Kafka 的数据同步到 Elasticsearch，大概就是下图的一个流程：执行任务发现可以读取到 Mysql 的数据，自己在控制台用命令行消费自动创建的 Topic 也可以消费到数据，但是 Java API 中 consumer.poll 之后的 records 是空的，没有拿到任何数据，并且 IDEA 给出了一个警告：Unchecked assignmen

2020-11-12 17:38:42 2848

原创【Java基础】获取子字符串在父字符串中出现的次数

仅代码，暂无实例/** * 计算子字符串出现的次数 * * @param parentStr * @param childStr * @return */public static int getChildStrCounts(String parentStr, String childStr) { int propsIndex = 0; int counts = 0; // properties 出现几次代表字段嵌套几层 while (par

2020-11-04 10:08:35 330

原创【Elasticsearch】使用 PerformRequest 实现 kibana 开发控制台基础效果

文章目录概述调用方式同步异步添加 request 参数添加请求主体（boby）RequestOptions调用方式实例本文内容基本都是从官网文档整理而来，工作不易，转载请声明概述创建 RestClient 后就可以通过调用 performRequest 或 performRequestAsync 发送请求。performRequest 是同步的，当请求成功时将阻塞调用线程并返回响应，如果请求失败则抛出异常。performRequestAsync 是异步的，它接受一个 ResponseListene

2020-10-21 10:33:19 1930

原创【Elasticsearch】使用 SQL 语句实现对 Elasticsearch 的查询

Elasticsearch SQL概述使用Elasticsearch 和 SQL 的概念映射SQL REST API本文内容基本都是从官网文档整理而来，工作不易，转载请声明概述Elasticsearch SQL 是为了给 Elasticsearch 提供一个强大而轻量级的 SQL 接口而存在的。Elasticsearch SQL 是一个 X-Pack 组件（也就意味的你的Elasticsearch版本必须安装了 X-Pack 组件），它允许根据 Elasticsearch 实时执行类似 SQL

2020-10-12 17:39:16 3301

原创【Hadoop】Yarn —— 调度计算核心

Yarn概述主要角色运行流程（重点）调度策略概述Yarn是 Hadoop 2.x 引入的新的资源管理系统模块，主要用于管理集群当中的资源（主要是服务器的各种硬件资源，比如内存、CPU等），它不光管理硬件资源，还管理运行的一些任务信息等。Yarn调度资源可以分为两个层级：一级管理调度：管理计算机的资源、运行job任务的生命周期二级管理调度：任务的计算模型（maptask,reducetask的代码）、多样化的计算模型（spark,storm）主要角色角色作用Resour

2020-09-26 11:02:42 360 1

原创【Hadoop】MapReduce —— 大数据的核心思想体现

MapReduce概述MapTask运行流程ReduceTask运行流程Shuffle 是什么？编写 Java API步骤简单 API 实例Mapper 类编写Reduce 类编写Driver 类编写概述MapReduce 的思想核心是分而治之，适用于大量复杂的任务处理场景（大规模数据处理场景）。最主要的特点就是把一个大的问题，划分成很多小的子问题，并且每个小的子问题的求取思路与我们大问题的求取思路一样。最主要有两个阶段：一个map阶段，负责拆分；一个是reduce阶段，负责聚合。一个文件切块(

2020-09-26 09:55:06 465

原创【Hadoop】HDFS —— 大数据入门必须要了解的知识点

HDFS什么是 HDFS ？主要角色分块存储机制副本机制读写文件流程读取文件流程图写入文件流程图常用命令基础命令使用高级命令使用什么是 HDFS ？全称 Hadoop Distributed File System，中文翻译过来就是分布式文件系统。那么，何为分布式文件系统呢？可以参考下图。这是依靠我自己的理解画出的 HDFS 的架构。从图中可以看到 HDFS 本身的一些特性：首先分布式文件系统不是由一台服务器实现的，而是多台服务器。比如 node 01/ node 02/ node 03/ 三

2020-09-26 00:19:55 421

原创【Linux】yum 方式下载不到想要的包？教你快速制作本地 yum 源

制作本地 yum 源一、安装 Httpd 服务器二、放置 rpm 包三、修改 yum 源配置文件一、安装 Httpd 服务器1. 安装：yum install -y httpd2. 启动 Httpd 服务： service httpd start 或者 systemctl start httpd3. 查看 Httpd 服务是否启动： service httpd status 或者 systemctl status httpd出现下图表示 httpd 服务启动成功：二、放置 r

2020-09-20 11:51:09 458

原创 The path component: ‘/var/lib/hadoop-hdfs‘ in ‘/var/lib/hadoop-hdfs/dn_socket‘ has permissions 0755

报错原因：java.io.IOException: The path component: ‘/var/lib/hadoop-hdfs’ in ‘/var/lib/hadoop-hdfs/dn_socket’ has permissions 0755 uid 993 and gid 991. It is not protected because it is owned by a user who is not root and not the effective user: ‘0’. This migh

2020-09-20 11:50:44 1036

原创使用 PREFIX=PATH make install 编译 hue 报错：……setuptools pip wheel failed with error code 2

报错具体内容：OSError: Command /opt/lagou/software/…ld/env/bin/python2.7 - setuptools pip wheel failed with error code 2解决方法：1.先确定自己的 linux 服务器有没有安装 python-pip，如果没有，执行 yum -y install python-pip 安装2.更换 pip 下载源# 查看在 ~目录下有没有 .pip 目录，如果没有则创建# 并在 .pip 目录下创建 pip

2020-09-03 00:15:09 847

原创【Flink】flink的stateful应该如何理解？

文章目录State | 状态概述算子状态(operator state)概述键控状态(keyed state)概述代码案例State | 状态概述　　相信有浏览过Flink官网的朋友一定发现了，一进入官网的顶端，就有加粗的标题： Apache Flink® — Stateful Computations over Data Streams. Flink可以在流式数据上进行有状态计算。那么，有状态(Stateful)是什么意思？　　官网也给出了解释，主要解释了一下什么是有状态函数(Stateful

2020-05-13 00:18:18 1535

原创【Flink】异步IO知多少？官方文档永远是最好的教科书

文章目录Asynchronous I/O for External Data Access | 用于外部数据访问的异步I/OThe need for Asynchronous I/O Operations | 异步IO操作的需要Prerequisites | 使用异步IO的前提条件Async I/O APIAsynchronous I/O for External Data Access | 用于外部数据访问的异步I/O老规矩，上来先上官方文档：https://ci.apache.org/projec

2020-05-12 00:27:29 399

原创【Flink】如何处理数据延迟

文章目录迟到数据概述实例迟到数据概述官网给出的定义：Late elements are elements that arrive after the system’s event time clock (as signaled by the watermarks) has already passed the time of the late element’s timestamp. （迟到数据是指系统的事件时间时钟（由水印指示）在经过延迟元素时间戳之后的时间到达的元素。）以下观点均是看完罗西的

2020-05-11 22:59:56 2163

原创【Flink】watermark的基本原理和简单案例

文章目录好文分享watermark简单介绍概述简单案例watermark && 滚动窗口watermark && 滑动窗口好文分享关于watermark的解读，有两篇文章对我来说都比较有用：一、《Flink Event Time Processing and Watermarks》二、《[白话解析] Flink的Watermark机制》当然，官方文档永远都属于最有用的那一档：https://ci.apache.org/projects/flink/flink-d

2020-05-11 10:51:09 633

原创【Flink】关于Time和Window的基本知识点

文章目录引言Time概述WindowTimeWindow滚动窗口 | Tumbling Windows滑动窗口 | Sliding Windows会话窗口 | Session WindowsCountWindow实例CountWindow && TimeWindowWindowReduceWindowApply引言Flink有四大基石：CheckpointStateTimeWindow这篇文章主要说一下Time和Window Time概述Event Time —

2020-05-10 21:32:47 584

原创【Flink】整合Flink和Mysql数据库，将Mysql数据库作为source和sink

文章目录Mysql作为Flink的source创建maven工程，导包开发代码Mysql作为Flink的sink开发代码Mysql作为Flink的source创建maven工程，导包<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>

2020-05-09 10:46:18 1709

原创【Flink】如何整合flink和kafka，将kafka作为flink的source和sink

文章目录概述source分类关于addSource案例步骤创建maven工程，导包开发代码代码中涉及到的知识点反序列化Schema类型概述分类设置Kafka Consumers从哪开始消费Flink关于Kafka的动态分区检测概述source分类flink的source有四种分类：基于集合 —— 有界数据集，一般都是本地测试用基于文件 —— 适合监听文件修改并读取其内容，一般也是测试用，实际工作环境很少用基于Socket —— 坚挺住几的host port，从Socket中获取数据自定义a

2020-05-08 22:15:46 1204

原创【Flink】从单词计数案例弄明白DataStream API

步骤1.获取Flink流处理运行环境2.构建一个socket源3.连接9999端口发送实时数据4.使用flink操作进行单词统计5.输出结果代码开发import org.apache.flink.api.java.tuple.Tupleimport org.apache.flink.streaming.api.scala.{DataStream, StreamEx...

2020-05-08 15:32:56 382

原创【Flink】通过简单的案例了解flink中的广播变量

需求现在有一个 “学生表”、一个 “成绩表”，要将学生表发布到广播。学生表如下：|学生 ID | 姓名 ||------ |------| List((1, "张三"), (2, "李四"), (3, "王五"))成绩表如下：|学生 ID | 学科 | 成绩 | |------|------|-----| List( (1, "语文", 50),(2, "数学", 70), (...

2020-05-08 00:05:41 495

原创【Flink】常用transformation算子和简单实例

文章目录批处理Transformation算子概述Transformation算子表实例与Spark使用基本相同的mapflatMapmapPartition批处理Transformation算子概述老规矩，官方文档永远是最好的使用教程，先献上官网关于DataSet Transformation的链接：https://ci.apache.org/projects/flink/flink-d...

2020-05-06 22:21:27 296

原创【Flink】flink的数据源有哪些

文章目录基于本地集合的source | Collection-based-source代码实现基于文件的source | File-based-source开发代码基于本地集合的source | Collection-based-source最常见的三种：fromElements()fromCollection()generateSequence()代码实现import jav...

2020-05-05 20:49:57 1265

原创【Flink】实操小案例，开发DataSet API实现简单的单词计数

文章目录一、创建maven工程，导包二、开发代码三、打包，上传到web执行一、创建maven工程，导包<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.targ...

2020-05-05 14:34:13 343

原创【Flink】记录一下flink的多种集群环境搭建

主要有standalone集群部署，HA模式部署，on-yarn集群部署

2020-05-05 10:53:53 365

原创【Flink】使用之前，先简单了解一下Flink吧！

文章目录Flink简单介绍概述无边界数据流和有边界数据流技术栈核心组成架构体系重要角色Flink与Spark架构概念转换Flink简单介绍概述在使用Flink之前，我们需要大概知道Flink是什么？首先，从Flink的官网可以有一个简单的了解：Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中...

2020-05-04 22:12:21 257

原创写了shell脚本想一键启动三台虚拟机的Zookeeper，却不知道为啥总是启动不了

首先，一键启动的shell脚本是这样的#! /bin/bashcase $1 in"start"){ for i in node01 node02 node03 do ssh $i "/opt/module/zookeeper-3.4.5-cdh5.14.0/bin/zkServer.sh start" don...

2020-04-21 17:51:07 524 3

原创【Spark】部署流程的深度了解

（多图慎入）首先有standalone和on-yarn各自的两种模式流程图，然后对on-yarn的cluster模式的源码进行了解读

2020-04-17 13:11:20 297 3

原创【Spark】SparkStreaming的容错机制

文章目录检查点机制驱动器程序容错工作节点容错接收器容错处理保证检查点机制Metadata checkpointing —— 将定义流计算的信息存入容错的系统如HDFS。Data checkpointing —— 将产生的RDDs存入可靠的存储空间。代码实现如下图val sparkContext = new SparkContext(new SparkConf())val ssc = n...

2020-04-15 12:55:01 239

原创【Spark】SparkStreaming和Kafka的整合

测试了0.8版本的Receiver DStream和Direct DStream，还有0.10版本的Direct DStream

2020-04-15 12:18:15 606

原创【Spark】SparkStreaming与flume进行整合

通过poll和pull的方式

2020-04-15 00:42:07 501

原创【Spark】SparkStreaming从不同基本数据源读取数据

基本数据源有文件数据源、自定义数据源、RDD队列；

2020-04-14 20:41:52 946 1

原创【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数

最基础的单词计数，socket发送什么就接收什么，不保留历史消息

2020-04-14 16:17:54 1398

原创【Spark】帮你搞明白怎么通过SparkSQL整合Hive

可以直接使用hql语句

2020-04-14 02:19:20 161

原创【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作

主要是DataFrame的两种构建方式、DSL语句和SQL语句的使用

2020-04-14 01:56:59 228

原创【Spark】DataFrame关于数据常用操作

分别有DSL语法和SQL语法两种风格，本文关于DSL主要介绍了关于查询表中字段，对字段数据进行修改、过滤、分组统计等操作

2020-04-13 23:49:19 500

原创【Spark】通过创建DataFrame读取不同类型文件内容

主要有文本文件，json文件和parquet列式存储格式文件

2020-04-13 22:09:50 413

原创【Spark】Spark任务调度相关知识

主要有DAG(Directed Acyclic Graph)、shuffle和任务调度流程的相关知识

2020-04-13 16:49:22 198

原创【Spark】RDD的依赖关系和缓存相关知识点

文章目录RDD的依赖关系宽依赖窄依赖血统RDD缓存概述缓存方式RDD的依赖关系RDD和它依赖的父RDD的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。宽依赖宽依赖指的是子RDD中的数据来源于父RDD中的多个分区，其实就是产生了shuffle窄依赖窄依赖指的是子RDD中的数据来源于父RDD当中的一个分区，也即没有产生...

2020-04-13 12:01:53 232

空空如也

空空如也