自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(737)
  • 资源 (10)
  • 论坛 (2)
  • 收藏
  • 关注

原创 [Spark版本更新]--Spark-3.2.0 发布说明

Apache Spark 官方在 2021 年 10 月 13 日发布了 3.2.0 版本,Jira release 页面点击:链接。以下是 Release Notes,供参考:Sub-task[SPARK-26164] - [SQL] 允许 FileFormatWriter 写入多个分区/存储桶而无需排序 [SPARK-26341] - 在 Stages 选项卡中公开阶段级别的执行程序内存指标 [SPARK-26346] - 将镶木地板升级到 1.11.1 [SPARK-26...

2021-10-21 15:56:18 12

原创 【Flink基础】-- Flink 1.13版本发布

Apache Flink 社区在 2021.08.05日发布了 Apache Flink 1.13 系列的第二个修复错误的版本。 此版本包括 127 个修复和小改进。以下的列表包括修正错误和改进。有关所有更改的完整列表,请参考:Error - ASF JIRA。下面来看看部分更新内容: [FLINK-21445] 修复了应用程序模式在构建 PackagedProgram 时不设置配置的问题 [FLINK-22443] 修复了无法在批处理模式下执行极长的 sql的问题 ...

2021-10-18 20:02:15 20

原创 【ElasticSearch基础】-- 日常查询&运维操作

1 日常查询1.1 查询所有索引curl 'http://172.16.2.19:9200/_cat/indices?v'1.2 查看索引信息curl -sXGET "http://172.16.2.19:9200/_cat/indices/user_02?h=i,p,r"列名称:索引名称 主分片 副本个数curl -sXGET "http://172.16.2.19:9200/_cat/indices/test_02"yellow open test_02 V3--Fg

2021-08-20 16:32:04 36

原创 【大数据面试】-- 2021面试题目汇总

前言 结合最近面试经历,整理了一些题目,希望对小伙伴们有帮助。内容1、Java2、Scala3、Spark4、Hive5、Hadoop6、Kafka7、Flink8、算法9、数据结构...

2021-08-20 16:05:51 99

原创 【Kafka基础】-- topic 常用管理命令汇总

1、环境Kafka 版本:2.2.1-cdh6.3.0 Java 版本: oracle jdk 1.82、常用命令2.1、查看Kafka 版本$ kafka-topics --version2.2、创建 topics$ kafka-topics --create --bootstrap-server ky-node1:9092 --replication-factor 1 --partitions 12.3、描述 topics$ kafka-topics --d..

2021-08-11 11:48:48 48

原创 【Spark基础】-- 视图(view)

目录1、视图(view)介绍1.1 定义1.2 作用2、视图的分类3、视图操作4、注意事项5、参考1、视图(view)介绍1.1 定义从一个或多个表导出的虚拟的表,其内容由查询定义。 具有普通表的结构,但不实现数据存储;多表视图一般用于查询,不会改变基本表的数据。1.2 作用操作被简化,把经常使用的数据定义为视图,使用方便。 安全性高,用户对视图不可以随意的更改和删除,可以保证数据的安全性。 逻辑上的独立性,屏蔽了真实表的结构带来的影响,视图可使应用程序和

2021-08-11 10:33:49 72

原创 【Maven】--如何解决包冲突

1、常见包冲突异常2、包冲突产生的原因3、如何解决包冲突3.1首先要找到冲突的包3.2 解决包冲突1、常见包冲突异常Caused by:java.lang.NoSuchMethodErrorCaused by: java.lang.ClassNotFoundException2、包冲突产生的原因主要考虑 Maven 依赖传递原则,在编译时,编译器会选择低版本的依赖打入 jar 中。(1)最短路径优先原则Maven 面对 D1 和 D2 时,会默认选择最短路径..

2021-07-01 20:14:28 93 2

原创 【架构选型】-- HBase 、MongoDB、Redis和ES的应用场景选择

HBase、MongoDB、ElasitcSearch和Redis都是 NoSql 数据库,各有千秋,应用场景也不同。1 HBase-2008年初始版本1.1 特点容量大
 传统关系型数据库,单表不会超过五百万,超过要做分表分库,不会超过30列。 Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性。面向列 
面向列的存储和权限控制,并支持独立检索,可以动态增加列,即,可单独对列进行各方面的操作
列式存储,其数据在表...

2021-06-24 12:04:20 254

翻译 【Flink进阶】-- 监控 checkpoint 指标

概览监控OverviewHistorySummaryConfigurationCheckpoint 详细信息概览Flink 的 Web 界面提供了选项卡/标签来监视作业的 checkpoint 信息。在作业终止后,这些统计信息仍然可用。有四个不同的选项卡可显示有关 checkpoint 的信息:Overview,History,Summary和Configuration。以下各节将依次介绍这些内容。监控Overview概览选项卡列出了以下统计信息。请...

2021-06-22 12:55:03 192

原创 【数据库】--关键字汇总

经常使用的数据库和对应的关键字汇总1、Hive最新版本:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Keywords,Non-reservedKeywordsandReservedKeywords2、Flink SQL最新版本:https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/sq.

2021-04-25 18:50:21 74

原创 [Redis基础]-- Linux Redis单节点安装

使用 yum 安装步骤使用编译安装,版本为6.0.81、确认设备是否有 rpm 包$ sudo rpm -qa |grep redis2、下载 redis rpm$ wget http://www6.atomicorp.com/channels/atomic/centos/7/x86_64/RPMS/redis-3.0.7-4.el7.art.x86_64.rpm3、安装$ sudo yum localinstall redis-3.0.7-4.el7.art.x...

2021-04-18 19:50:21 43

原创 【Spark 基础】-- 如何避免 Yarn ApplicationMaster 重启

1、背景某天发现一个 Spark streaming 程序有一批数据丢失,但是 Spark 程序本身没有 kill 。经过排查发现是由于 Yarn applicationMaster 重启导致缺少了一个批次的数据。2、避免 yarn application master 重试的做法设置以下参数:spark.hadoop.yarn.resourcemanager.am.max-attempts=1spark.yarn.maxAppAttempts=1...

2021-01-29 16:15:20 182

原创 【Kafka 基础】-- acks 机制

Kafka producer 的三种 ack 机制Kafka producer 有三种 ack 机制,可以在初始化 producer时在 config 中进行配置举例Properties props = new Properties();props.put("bootstrap.servers", "localhost:9092");props.put("acks", "all");默认值:acks=1以下是相关说明图示:acks=0producer写入 l...

2020-12-29 16:28:38 513

原创 【Maven基础】-- 将第三方依赖打入 jar

1、shaded2、jar

2020-12-24 12:51:13 228

原创 【Spark 基础】-- 重试级别及说明

1 级别一: ApplicationMaster 重试作用:避免 job 失败一次后,就马上 stop。参数:spark.yarn.maxAppAttempts:默认为yarn.resourcemanager.am.max-attempts的值,如果要设置,需小于它的值 yarn.resourcemanager.am.max-attempts:默认为 2在Spark on Yarn 时,读取 maxAppAttempts 参数和判断该参数的spark源码,代码位于Application...

2020-10-26 14:32:22 1257

原创 【HBase基础】-- HBase 在 HDFS 上的目录说明

1 说明HBase 在 HDFS 上的目录共有 3 部分:根目录、表目录和 Region 目录。2 目录说明2.1 根目录xml 配置:<name> hbase.rootdir</name>默认 “/hbase”(1)/hbase/WALs被 HLog实例管理的WAL文件。## /hbase/WALs/data-hbase.com,60020,1542159360923对于每个HregionServer,日志目录中都包含一个对应的子目录## h.

2020-09-26 16:23:00 378

原创 【ES 基础】-- ES 频繁使用的操作汇总

ES 频繁使用的操作汇总

2020-08-17 10:55:49 495

原创 【HBase 进阶】-- Region 过多的影响 & 合理分区数量

1 背景 最近,在使用 HBase 预分区时,创建的 region 太多 ,集群不堪重负,由此带来了 HBase 的意外宕机。2 一些概念推荐查看此文章:https://www.cnblogs.com/swordfall/p/8737328.html3 Region 数量和大小3.1 Region 数量我的理解:较少的 region 数量能使群集运行的更加平稳,官方建议:每个 regionserver 拥有小于 100 个 region 时集群最稳定。...

2020-07-12 11:17:00 1106

原创 【Java 基础】-- 为什么需要实现 Serializable 接口

1、什么是序列化 序列化:将对象写入到IO流中 反序列化:从IO流中恢复对象 补充: Serializable 是一个空接口,它的目的仅是标识一个类的对象可以被序列化。 Java 提供的一种高效机制:将对象的状态信息转换为可以存储或传输的形式的过程,在序列化期间,对象将其当前状态写入到临时存储区或持久性存储区,之后,便可以通过从存储区中读取或反序列化对象的状态信息,来重新创建该对象。2、什么情况下需要序列化 当你想把的内存中的对象持久化时...

2020-07-05 11:05:23 636

原创 【Java基础】-- list、set 和map 的查询速度

1 背景知识list、set和map的基本介绍如下图:2、猜想在数据量级比较小的情况下(十万以内),查询速度快慢对比: map 、set 、list的速度相差不大。 在数据量比较大的情况下(百万以内),查询速度: map > set > list。3、验证某个集合中是否包含某个元素。3.1 数据量: 9.9万public class TestFindSpeed { public static void main(String[...

2020-06-14 10:22:57 2163 3

原创 【Linux 进阶】-- 定时任务工具(crontab & gocron & tmux)

一、简单介绍crontab:linux 自带、无监控、单节点、无告警 gocron:go 语言开发、有可视化监控界面、多节点、可邮件告警 tmux:yum 安装、无监控、单节点、无告警二、安装本文推荐使用 gocron,故以安装 gocron 为例。2.1 环境centos 7.2 + gocron 1.5.3 + mysql 5.62.2 安装方式【二进制安装】(推荐)、【源码安装】(不推荐)和 【docker安装】(不推荐)2.3 采取二进制安装的步骤2.3.1 .

2020-05-31 10:34:05 483

原创 【Python 基础】-- 使用注释

1、注释分类单行注释:以 # 开头,间隔一个空格后开始写说明示例# 这是一个 python 打印字符串的示例print("hello world")多行注释:python 2.7 以前使用 3 个英文单引号,python 2.7 以后建议使用 3 个英文双引号示例"""这是一个多行注释的示例1、使用双引号"""'''这是一个多行注释的示例1、使用单引号'''2、中文支持如何在 python 代码中支持 中文字符呢?只需要在code 抬头选择以下2

2020-05-26 13:52:12 187

原创 【Spark SQL】-- 集成 ElasticSearch 的相关配置

1.版本Spark: 2.4.0 ES:5.6.122.配置说明https://www.elastic.co/guide/en/elasticsearch/hadoop/5.6/configuration.htmlhttps://www.elastic.co/guide/en/elasticsearch/hadoop/5.6/spark.html3.配置详情/* * Licensed to Elasticsearch under one or more contributor.

2020-05-10 17:57:46 920

原创 【Structured Streaming】-- 输出模式

环境spark 2.4.0scala 2.11.8jdk 1.8http://spark.apache.org/docs/2.4.0/structured-streaming-programming-guide.html#output-modes

2020-04-24 19:17:32 219

原创 【Flink基础】-- 写入 Kafka 的两种方式

方式一:用 Robin 的方式写入 Kafka1、实现 exactly-once 语义的 kafka sink,用 Robin 的方式写入 Kafka2、randomRobin: 创建 FlinkKafkaProducer 时,指定空的 customPartitioner,flink 会把 一个 sink subtask 的数据以 round-robin 方式写入 kafka 的各个分区...

2020-04-20 21:58:24 1779 1

原创 [Hive 基础]-- 使用 Map 和 Array 数据结构

Hive 处理复杂数据时,可以使用支持的复杂数据结构1、map1.1 可以存储如下数据"geo": {"country": "中国","subdivision": "安徽","city": "合肥","latitude": "31.86141","longitude": "117.27562","isp": "电信"}说明:geo 代表hive 表字段名称,冒号后的...

2020-03-26 17:46:29 736

原创 [MongoDB基础]-- Spark 写 Dataframe 数据到 Mongo

如何将 Dataframe 数据写入 Mongo1、准备2、输入数据3、代码4、查询5、参考文档1、准备环境:Spark 2.3.1 + Mongo 4.2.3 +scala -2.11.8+ jdk 1.8.0 + Hadoop-2.7.3业务:将 json 数据 使用 spark 读出来,然后写入 mongo2、输入数据json 格式{ "name": "BeJson",...

2020-03-22 16:54:29 841

原创 【Flink 基础】-- 如何设置 TaskManager、Solt和 Parallelism

一、概念理解solt:把 slot 看做 cpu 的核一个slot一可以并行跑很多作业并发度:一个算子有多少个运行实例关系: slot数 = 最大并发度、一个slot一可以同时运行不同算子的一个实例二、参数设置说明计算 TaskManager 数量: 50/4 = 13 , 13个TM一共可以提供13*4=52 个 slot。最大并发是50,只占了 50 slot,还剩下...

2020-02-19 10:29:26 1807

原创 【Java基础】-- System.exit(-1)、System.exit(0)和System.exit(1)区别

System.exit(-1)、System.exit(0)、System.exit(1)区别1、源码链接https://docs.oracle.com/javase/8/docs/api/java/lang/System.html#exit(int)2、说明所在包:package java.lang源码方法: /** * Terminates the current...

2020-01-21 11:10:05 5215

原创 【大数据面试】--2019年面试和笔试题目汇总

一、前言 经过一段时间的面试和笔试,已经彻底快让鄙人失去了信心!年底了,找工作真难!但是这也对个人将来的规划和学习工作有了一定的提示。下面将把个人算是面经吧,分享出来,希望对各位有帮助。 二、思考每次进入一家公司,即要做好离开的准备! -- 因为公司不是你的家 一定要建立起自己的知识库,必须频繁循环下面的过程:获取、应用、更新和存储! -- 与时俱...

2020-01-12 18:58:23 8861 2

原创 [Spark 学习]-- 1.4 Spark cluster manager

2019-12-04 10:53:45 374

原创 [Kafka 基础]-- 安装 kafka-manager 监控

一、Kafka 监控工具介绍 目前还没有一款公认比较优秀的 Kafka 监控工具,各有各的好,我们可以针对自己需要去选择,但是如果你是 Kafka 集群运维操作人员,还是推荐先用 Kafka Manager 来做监控。1.Kafka Manager雅虎公司开源的免费监控框架 Scala 编写的 国内外最受欢迎的、社区非常活跃 功能非常齐全且 UI 界面可执行一些简单的...

2019-11-12 17:33:29 227

转载 [CDH 基础]-- Cloudera Manager Metrics(CDH-6.3.0)

Cloudera Manager MetricsThis section provides information on metrics supported by Cloudera Manager.Ametricis a property that can be measured to quantify the state of an entity or activity. Th...

2019-11-07 09:57:20 680

转载 [CDH 基础]-- tsquery 语言指南(CDH 6.3.0)

tsquery LanguageThe tsquery language is used to specify statements for retrieving time-series data from the Cloudera Manager time-series datastore.Continue reading:tsquery Syntax Metric Expr...

2019-11-07 09:54:55 1121

原创 [Spark 学习]--1.3 Spark practice

下载链接:https://pan.baidu.com/s/1MOrXupl__rFe_uj6pT-82Q 密码:f1po参考:https://blog.csdn.net/high2011/article/details/76651290项目地址:https://github.com/yangjf2019/my-app...

2019-10-21 09:04:31 235

原创 [Flink 学习] -- 编译 CDH-6.3.0 版本的 Flink 1.9.0

前言 由于 Apache Flink 的开源二进制包未提供 HDP、MapR和 CDH 的下载,所以,如果要兼容基于这些厂商的库编译 Apache Flink。本文主要介绍使用 CDH 的库进行编译 Apache Flink 1.9.0,希望对读者有所帮助。内容 1、环境 Jdk 1.8、macOS10.14.6、Maven 3.6.2和Scala-2.11....

2019-10-17 18:16:37 4467 11

原创 [Spark 学习]--1.2 Spark core

参考链接:https://github.com/yangjf2019/learning-spark-group/blob/master/src/main/scala/com/yjf/learning/spark/core/SpecialOutPutWordApp.scala

2019-09-29 08:57:01 183

原创 [Spark 学习]-- 1.1 Spark 框架介绍

2019-09-29 08:47:45 255

原创 [Java 进阶]-- import 和 import static 区别

1、Oracle 官方说明https://docs.oracle.com/javase/8/docs/technotes/guides/language/static-import.html2、Stackoverflow 讨论https://stackoverflow.com/questions/420791/what-is-a-good-use-case-for-static-...

2019-09-15 11:29:02 212

原创 [Spark 学习]-- 初级规划

1 Spark 框架介绍1.1 Spark 介绍【点击链接】1.1.1 Spark 是什么?1.1.2 为什么使用 Spark?1.1.3 应用场景有哪些?1.1.4 参考1.1.5 小结1.2 Spark core【点击链接】1.2.1 spark 技术栈1.2.2 spark 是怎样工作的1.2.3 RDD 是什么?有哪些特点?RDD 在哪里?1.2.4 RDD 有哪些 ...

2019-09-12 17:22:07 196 1

window10的wget包

解压后,进入cmd命令行输入wget url即可使用。 举例:wget http://www.baidu.com

2017-12-13

Canal开源产品介绍

早期,阿里巴巴B2B公司因为存在杭州和美国 双机房部署,存在跨机房同步的业务需求,当时 早期的数据库同步业务,主要是基于trigger的方式 获取增量变更。 从2010年开始,阿里系公司开始逐步的尝试基 于数据库的日志解析,获取增量变更进行同步, 由此衍生出了增量订阅&消费的业务,从此开启 了一段新纪元.

2018-08-23

cloudera-enterprise-datasheet.pdf

cloudera-enterprise-datasheet.pdf(企业和免费版区别)

2016-08-15

bigBench.pdf

Evaluating Hive and Spark SQL with BigBench

2016-08-07

redis-笔记

redis学习笔记

2016-08-31

oracle架包

这是一个连接oracle数据库的连接架包哈

2015-04-28

数据库性能调优.原理与技术.pdf

数据库性能调优.原理与技术.pdf

2016-08-14

spark论文原文:EECS-2014-12.pdf

伯克利大学spark论文原文:EECS-2014-12.pdf

2016-08-07

Scala Cookbook

Scala Cookbook - Recipes for Object-Oriented and Functional Programming_Alvin Alexander_2013

2016-08-07

文件hibernate

hibernate-mapping.dtd

2015-04-28

highfei2011的留言板

发表于 2020-01-02 最后回复 2020-01-02

spark yarn-cluster提交任务报错

发表于 2016-07-17 最后回复 2018-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除