自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(363)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 大数据专题

Flink目录链接Flink安装mac版

2020-06-04 19:58:29 350

原创 Docker容器化 & Kubernetes容器集群

目录博客链接centos安装dockerhttps://blog.csdn.net/qq_24095055/article/details/87877283mac下安装dockerhttps://blog.csdn.net/qq_24095055/article/details/87876928第一个docker化的java应用https://blog.csd...

2019-07-08 14:04:24 272

原创 SpringCloud&Dubbo学习笔记

目录博客链接

2019-05-05 11:24:50 2176

原创 常用框架专题springboot&mybatis...

Spring Boot 专题目录博客链接SpringBoot Profile多环境配置

2019-04-08 14:45:02 2063

原创 消息中间件专题

消息中间件专题汇总目录博客链接Mac下ActiveMQ的下载与安装https://blog.csdn.net/qq_24095055/article/details/88974051

2019-04-02 15:59:24 3003

原创 Java知识体系总结

Java面试总结分类总结博客快速导航Java面试之基础篇Java面试之集合篇Java面试之多线程篇Java面试之JVM篇Java面试之数据结构篇Java面试之算法篇Java面试之框架篇Java面试之数据库篇Java面试之计算机网络篇Java面试之操作系统篇Java面试之真实面试经历篇...

2019-03-13 11:30:37 23329 2

转载 Java异步编程指南

文章目录一. Future二. ListenableFuture三. CompletableFuture在我们平时开发中或多或少都会遇到需要调用接口来完成一个功能的需求,这个接口可以是内部系统也可以是外部的,然后等到接口返回数据了才能继续其他的业务流程,这就是传统的同步模式。同步模式虽然简单但缺点也很明显,如果对方服务处理缓慢迟迟未能返回数据,或网络问题导致响应变长,就会阻塞我们调用方的线程,导致我们主流程的耗时latency延长,传统的解决方式是增加接口的超时timeout设置,防止无限期等待。但即使

2021-02-25 00:04:51 42

转载 OLAP数仓入门:进阶篇

文章目录1. 有哪些类型的OLAP数仓?2. 有哪些常用的开源ROLAP产品?导读:前一篇文章从OLTP出发,通过对比引出OLAP,进一步介绍了数仓的基本概念,包括多维数据模型、数据立方体及其典型操作等。本篇再进一步,将介绍OLAP的类型及其代表产品,并分析主流开源OLAP产品的核心技术点。未看过前一篇文章的读者,欢迎做进一步了解:OLAP数仓入门:基础篇1. 有哪些类型的OLAP数仓?1. 按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基

2021-01-25 17:19:33 70

转载 OLAP数仓入门:基础篇

文章目录导读:近七年在网易杭研一直从事数据库相关的开发工作,主要是MySQL和MongoDB这两种数据库,去年开始涉及图数据库Neo4J。上述几种,都可认为是OLTP类数据处理,由于工作需要,需要调研学习OLAP技术和相关系统,本文开始逐步进行第一轮总结,很多东西还只是片面理解,权当做个笔记。对事物的认识总是螺旋式的,先有个大致的认识,再逐渐丰富其血肉。这个过程,会有片面性、也可能否定之前的理解,但只要一直用心用脑,总会不断进步的。当然,多参考优秀的资料,会大大缩短过程中花费的时间。...

2021-01-23 16:02:38 70

原创 记一次处理版本冲突(jar包冲突)的过程

问题场景:项目运行报错如下本地源码中发现没有该方法,可是在同事那可以看到,发现该方法是在guava12版本开始提供的,考虑应该是jar包版本的问题如果要进行验证,可以使用反编译工具JD-GUI进行查看,将jar包拖进去,找到对应的类,发现我本地的这个类确实没有该方法为了进一步确定是jar包依赖问题,在idea中安装检测jar包依赖冲突的插件maven helper安装重启后,可以点击pom文件底部Denpendency Analyzer来查看是否存在版本冲突,首先查看pom,发现是引入了gu

2021-01-17 23:14:11 54 1

转载 Scala中求List集合的交集,并集,差集

object liu { def main(args: Array[String]): Unit = { val a1=List(5,6,4,7) val a2=List(1,2,3,5) // 交集 val c1 = a1.intersect(a2) println(c1) // 并集 distinct去重 val c2 = (a1:::a2).distinct println(c2) // 差集 val c

2020-12-07 14:15:06 82

转载 scala spark 高精度BigDecimal除法

scala 除法val totalnumBigDecimal = new java.math.BigDecimal(totalnum)val reissuenumBigDecimal = new java.math.BigDecimal(reissuenum)val reissuerate = reissuenumBigDecimal.divide(totalnumBigDecimal, 2, java.math.BigDecimal.ROUND_HALF_DOWN).doubleValue()

2020-11-27 15:21:06 245

转载 Redis配置认证密码

文章目录通过配置文件配置通过命令行进行配置master配置了密码,slave如何配置通过配置文件配置修改redis安装目录conf目录下的redis.conf配置文件,找到#requirepass foobared去掉行前的注释,并修改密码为所需的密码,保存文件requirepass myRediskill掉当前redis进程并重启~/software/redis-6.0.8/conf  ps -ef | grep redis501 7800 1 0 4:22下午 ??

2020-10-28 21:06:20 123

原创 Flink Redis Sink

文章目录官方API自定义Redis Sink官方APIflink提供了专门操作redis的Redis Sink依赖 <dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.0</version></dependency&

2020-10-28 20:54:09 142

原创 Spark实战44讲学习笔记(上)(未完)

文章目录第一讲: MapReduce 计算框架和编程模型第二讲 Hadoop:集群的操作系统第三讲 如何设计与实现统一资源管理与调度系统第一讲: MapReduce 计算框架和编程模型本届内容主要有以下几点:Google 的三驾马车;MapReduce 编程模型与 MapReduce 计算框架;并发与并行;如何理解分布式计算框架的编程接口与背后的工程实现。Google 的三驾马车USNew 把计算机科学分为 4 个领域:人工智能、编程语言、系统以及理论。其中的系统领域有两

2020-10-24 16:02:06 445

原创 spark本地调试(idea)

spark批处理程序通常是跑在类似yarn等集群环境中的,可是在进行开发的时候,不可避免的需要进行本地开发调试,记录下idea下调试本地spark程序方法。demo代码:/** * @description: 读取本地json文件,字符串解析出id并输出 */object CountPictureByDayTest { def main(args: Array[String]): Unit = { @transient val spark = SparkS

2020-10-23 14:44:04 468

原创 阿里云OSS简单使用(Java&Python)

文章目录OSS简介PythonJava官方文档:https://help.aliyun.com/document_detail/31817.html可直接查看官方文档,语言版本查看官方文档里的SDK示例即可。OSS简介阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高持久的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。OSS具有与平台无关的RESTful API接口,

2020-10-22 18:08:23 187

转载 mac下Hadoop、HDFS、Spark环境的安装和搭建(转)

环境搭建相比之前搭建Hadoop环境的Windows系统的相对繁琐步骤,Mac下显得简单不少。虽然我们需要搭建的是Spark环境,但是因为Spark依赖了Hadoop的HDFS以及YARN计算框架,当然还有类似软件包管理软件。安装前必备操作系统: Mac OS XJDK:1.8.0_251命令终端:iTerm2(Mac自带的命令终端也一样,只是配置环境参数需要到~/.bash_profile下添加,对于iTerm2需要到~/.zshrc中添加)软件包管理工具:brew(能够方便的安装和卸载软件

2020-10-17 15:03:04 169

原创 42讲轻松通关Flink学习笔记(下)

文章目录第二十九讲 项目背景和实时处理系统架构设计第三十讲 Flume 和 Kafka 整合和部署第三十一讲 Kafka 模拟数据生成和发送第三十二讲 Flink 和 Kafka 整合时间窗口设计第三十三讲 Flink 计算 PV、UV 代码实现第二十九讲 项目背景和实时处理系统架构设计从这一课时开始我们进入“Flink 实时统计 PV、UV”项目的学习。本课时先介绍实时统计项目的背景、架构设计和技术选型。背景PV(Page View,网站的浏览量)即页面的浏览次数,一般用来衡量网站用户访问的网页数

2020-10-12 22:55:11 437 1

原创 42讲轻松通关Flink学习笔记(中)

文章目录第十三讲 如何实现生产环境中的Flink高可用配置第十四讲 Flink Exactly-once实现原理解析第十三讲 如何实现生产环境中的Flink高可用配置概述事实上,集群的高可用(High Availablility,以下简称 HA)配置是大数据领域经典的一个问题。通常 HA 用来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。我们在第 03 课时“Flink 的编程模型与其他框架比较”中也提到过 Flink 集群中的角色,其中 JobManager 扮演的

2020-09-28 11:41:09 589 1

原创 42讲轻松通关Flink学习笔记(上)

文章目录第一讲 Flink的应用场景和架构模型第二讲 Flink入门程序WordCount和SQL实现第三讲 Flink的编程模型与其他框架比较第一讲 Flink的应用场景和架构模型flink开源于2019年初,迅速成为大数据实时计算领域炙手可热的技术框架。Flink支持运行在包括:YARNMesosKubernetes在内的多种资源管理框架上,Flink已经可以扩展到数千核心,其状态可以达到TB级别,且仍能保持高吞吐、低延迟的特性。Flink程序的基础构建模块:流(Stream

2020-09-14 11:51:51 312 1

原创 Hive简介及核心概念(未完)

文章目录一、简介二、Hive的体系架构2.1 command-line shell & thrift/jdbc2.2 Metastore2.3 HQL的执行流程三、数据类型3.1 基本数据类型一、简介Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。特点:简单、容易上手 (提供了类似 sql 的查询语言 hql),使得精通 sql

2020-08-31 15:26:34 57

原创 Flink on yarn部署及任务提交

文章目录1. 完成hadoop本地配置后启动2. flink提交作业到yarn的两种方式2.1 Flink ON Yarn启动流程2.2 Flink YARN Session2.2 Run a single Flink job on YARNHadoop单机yarn配置可参考博客,除了里面提到的./start-yarn.sh外,也可以使用./start-all.sh。1. 完成hadoop本地配置后启动# yarn方式启动,也可以使用 ./start-yarn.sh~/software/hadoop

2020-08-04 10:17:36 592

转载 HDFS 常用 shell 命令

文章目录1. 显示当前目录结构2. 创建目录3. 删除操作4. 从本地加载文件到 HDFS5. 从 HDFS 导出文件到本地6. 查看文件内容7. 显示文件的最后一千字节8. 拷贝文件9. 移动文件10. 统计当前目录下各文件大小11. 合并下载多个文件12. 统计文件系统的可用空间信息13. 更改文件复制因子14. 权限控制15. 文件检测1. 显示当前目录结构# 显示当前目录结构hadoop fs -ls <path># 递归显示当前目录结构hadoop fs -ls -R

2020-07-31 14:15:27 99

原创 Hadoop单机版环境搭建

文章目录一、前置条件二、配置免密登录(本地单机可不设置直接跳到下一节)2.1 配置映射2.2 生成公私钥2.3 授权三、Hadoop(HDFS)环境搭建3.1 下载并解压3.2 配置环境变量3.3 修改Hadoop配置3.4 关闭防火墙3.5 初始化3.6 启动HDFS3.7 验证是否启动成功四、Hadoop(YARN)环境搭建4.1 修改配置4.2 启动服务4.3 验证是否启动成功一、前置条件Hadoop 的运行依赖 JDK,需要预先安装,版本为1.8以上即可,这里不再赘述。二、配置免密登录(本地单

2020-07-31 14:01:02 104

转载 基于Zookeeper搭建Kafka高可用集群

文章目录一、Zookeeper集群搭建1.1 下载 & 解压1.2 修改配置一、Zookeeper集群搭建为保证集群高可用,Zookeeper 集群的节点数最好是奇数,最少有三个节点,所以这里搭建一个三个节点的集群。1.1 下载 & 解压下载对应版本 Zookeeper,这里我下载的版本 3.4.14。官方下载地址:https://archive.apache.org/dist/zookeeper/# 下载wget https://archive.apache.org/dist/

2020-07-30 14:24:30 100

转载 Zookeeper常用Shell命令

文章目录一、节点增删改查1.1 启动服务和连接服务1.2 help命令1.3 查看节点列表1.4 新增节点1.5 查看节点1.6 更新节点1.7 删除节点二、监听器2.1 get path [watch]2.2 stat path [watch]2.3 ls\ls2 path [watch]三、 zookeeper 四字命令一、节点增删改查1.1 启动服务和连接服务# 启动服务bin/zkServer.sh start#连接服务 不指定服务地址则默认连接到localhost:2181zkCli

2020-07-29 10:53:57 80

转载 Zookeeper单机环境和集群环境搭建

一、单机环境搭建1.1 下载下载对应版本 Zookeeper,这里我下载的版本 3.4.14。官方下载地址:https://archive.apache.org/dist/zookeeper/# wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz1.2 解压# tar -zxvf zookeeper-3.4.14.tar.gz1.3 配置环境变量# vim /etc/

2020-07-29 09:50:56 77

转载 如何正确使用 Flink Connector

文章目录Flink Streaming Connector本文内容出自 Apache Flink公开课系列作者:董亭亭本文主要分享 Flink connector 相关内容,分为以下三个部分的内容:第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑,对社区反馈的问题进行答疑。Flink Streaming Connector...

2020-07-28 20:13:33 90

原创 Java解析读取xml配置文件demo

xml:<?xml version="1.0" encoding="UTF-8"?><CONFIG> <VALUE> <!-- 正负样本比参数名称 --> <sampleMonitorField>is_click</sampleMonitorField> <!-- 正负样本比参数索引位置 --> <arrPosition>6</ar

2020-07-13 18:02:36 148

转载 Mac终端:pip command not found

pip是python的包管理工具,在Python2.7的安装包中,easy_install.py是默认安装的,而pip需要我们手动安装sudo easy_install pip

2020-07-07 20:19:04 225

原创 mac下安装python更换默认版本

mac下自带python2.7版本,如果要使用高版本可在官网下载下载完成后,shell中输入python依然为mac自带的2.7版本,可以在环境变量中配置为自己版本# 编辑环境变量配置文件vim ~/.bash_profile # 添加这一行 path根据自己路径指定,默认为下面的路径alias python="/usr/local/bin/python3"# wq保存退出 , 执行环境变量脚本source ~/.bash_profile此时shell中输入python,发现使用的是安

2020-07-07 14:37:39 501

转载 Apache Flink 进阶教程(八):详解 Metrics 原理与实战

文章目录什么是 Metrics?Metric TypesMetric Group如何使用 Metrics?System MetricsUser-defined MetricsUser-defined Metrics Example获取 MetricsMetric Reporter实战:利用 Metrics 监控自动化运维性能分析实战:“我的任务慢,怎么办”本文内容出自 Apache Flink公开课系列作者:刘彪本文由 Apache Flink Contributor 刘彪分享,本文对两大问题进行

2020-07-05 23:10:05 141 1

转载 Apache Flink 进阶教程(七):网络流控及反压剖析

文章目录网络流控的概念与背景为什么需要网络流控网络流控的实现:静态限速网络流控的实现:动态反馈/自动反压案例一:Storm 反压实现案例二:Spark Streaming 反压实现疑问:为什么 Flink(before V1.5)里没有用类似的方式实现 feedback 机制?TCP 流控机制TCP 流控:滑动窗口Flink TCP-based 反压机制(before V1.5)跨 TaskManager 数据传输跨 TaskManager 反压过程TaskManager 内反压过程Flink Credit

2020-06-28 20:13:00 133

转载 Apache Flink 进阶教程(六):Flink 作业执行深度解析

文章目录Flink 四层转化流程Program 到 StreamGraph 的转化StreamGraph 到 JobGraph 的转化JobGraph 到 ExexcutionGraph 以及物理执行计划Flink Job 执行流程Flink On Yarn 模式Fink on Yarn 的缺陷引入 Dispatcher 的原因主要有两点:资源调度模型重构下的 Flink On Yarn 模式没有 Dispatcher job 运行过程在有 Dispatcher 的模式下新的资源调度框架下 single c

2020-06-28 17:47:21 205

转载 Apache Flink 进阶教程(五):数据类型和序列化

文章目录为 Flink 量身定制的序列化框架为什么定制?Flink 的数据类型TypeInformationFlink 的序列化过程Flink 序列化的最佳实践最常见的场景实践–类型声明实践–注册子类型实践–Kryo 序列化Flink 通信层的序列化本文内容出自 Apache Flink公开课系列作者:马庆祥本文根据 Apache Flink 系列直播整理而成,由 Apache Flink Contributor、360 数据开发高级工程师马庆祥老师分享。文章主要从如何为 Flink 量身定制的序

2020-06-28 16:02:25 249

转载 Apache Flink 进阶教程(四):Flink on Yarn/K8s 原理剖析及实践

文章目录Flink 架构概览Flink 架构概览–JobFlink 架构概览–JobManagerFlink 架构概览–TaskManagerFlink 运行时相关组件Flink on Yarn 原理及实践Yarn 架构原理–总览Yarn 架构原理–组件Yarn 架构原理–交互Flink on Yarn–Per JobFlink on Yarn–SessionYarn 模式特点Flink on Yarn 实践Flink on Kubernetes 原理剖析Kubernetes–基本概念Kubernetes–

2020-06-28 15:06:40 170

转载 Apache Flink 进阶教程(三):Checkpoint 的应用实践

文章目录Checkpoint 与 state 的关系什么是 state什么是 keyed state什么是 operator state如何在 Flink 中使用 stateCheckpoint 的执行机制Statebackend 的分类Checkpoint 执行机制详解Checkpoint 的 EXACTLY_ONCE 语义Savepoint 与 Checkpoint 的区别本文内容出自 Apache Flink公开课系列作者:唐云(茶干)Checkpoint 与 state 的关系Check

2020-06-27 23:47:41 162

转载 Apache Flink 进阶教程(二):Time 深度解析

文章目录前言Flink 时间语义Timestamp 和 Watermark 行为概览Timestamp 分配和 Watermark 生成Watermark 传播ProcessFunctionWatermark 处理Table API 中的时间Table 中指定时间列时间列和 Table 操作本文内容出自 Apache Flink公开课系列作者:崔星灿前言Flink 的 API 大体上可以划分为三个层次:处于最底层的 ProcessFunction、中间一层的 DataStream API 和最上

2020-06-24 17:21:03 104

转载 Zookeeper简介及核心概念

文章目录一、Zookeeper简介二、Zookeeper设计目标2.1 目标一:简单的数据模型2.2 目标二:构建集群2.3 目标三:顺序访问2.4 目标四:高性能高可用三、核心概念3.1 集群角色3.2 会话3.3 数据节点3.4 节点信息3.5 Watcher3.6 ACL四、ZAB协议4.1 ZAB协议与数据一致性4.2 ZAB协议的内容五、Zookeeper的典型应用场景5.1数据的发布/订阅5.2 命名服务5.3 Master选举5.4 分布式锁5.5 集群管理一、Zookeeper简介Zoo

2020-06-22 10:34:48 103

大数据入门指南v1.0

大数据入门指南,来自github博主bigdata,只是全面,适合新手阅读,非常好,特别好,很实用,很适用于入门和刚接触大数据的行业人员及老师学生等等等等等等

2020-10-24

进击的Z同学的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除