-无妄--CSDN博客

原创欢迎使用

输出及显示echo：将内容输出到设备，类似java里面的system.out.println()常见用法：echo “hello\t\t world！” 不解析转义字符echo -e “hello\t\t world！” 解析转义字符echo $PATH 输出环境变量注意：在打印变量信息的时候，使用echo ${PATH} 也可以，效果是一样的[root@localhost ~]# echo "hello\t\t world！"hello\t\t world！[root@localho

2021-01-28 21:29:49 315

原创 JAVA面试干货之Java底层GC

对象被判定为垃圾的标准没有被其他对象引用判定对象是否为垃圾的算法引用计数算法判断对象的引用数量通过判断对象的引用数量来决定对象是否可以被回收每个对象实例都有一个引用计数器，被引用则+1，完成引用则-1任何引用计数为0的对象实例可以被当作垃圾收集优点：执行效率高，程序执行受影响较小缺点：无法检测出循环引用的情况，导致内存泄漏下列代码就是循环引用对方对象pub...

2019-11-08 16:26:29 444

原创 JAVA面试干货之Java底层JVM

面试问道：谈谈你对java的理解一般我们要简单的从平台无关性、GC、语言特性、面向对象、类库、异常处理等来简要回答。平台无关性如何实现Compile Once，Run Anywhere如何实现提供了不同平台的虚拟机，所以可以通过下图可以实现Java源码首先被编译成字节码，再由不同平台的JVM进行解析，Java语言在不同平台上运行时是不需要进行重新编译的，Java虚拟机在执行字节码的时...

2019-11-05 17:26:39 587

原创 9、Flink的部署以及作业提交

Flink源码编译下载源码：1、直接下载Flink1.7.2源码2、通过wget命令下载到服务器wget https://archive.apache.org/dist/flink/flink-1.7.2/flink-1.7.2-src.tgzFlink单机部署官网连接前置条件：JDK8...

2019-10-25 14:55:18 590

原创 Flink中的处理状态 - Working with State

Flink中有两种基本状态：Keyed State和Operator State键控状态-Keyed StateKeyed State 始终与键有关，并且只能在KeyedStream上的函数和运算符中使用。可以将 Keyed State 视为已分区或分片的Operator State 每个键只有一个状态分区。每个keyed-state在逻辑上绑定到<parallel-operator-i...

2019-10-25 13:56:50 637

原创 Flink的分布式运行原理

Tasks 和 Operator Chains在分布式执行中，flink链操作子task一起放入task。每个task由一个线程执行。将操作链链接到task是一种优化，减少了线程到线程的切换和缓冲的开销，并且降低延迟的同时提高了总体吞吐量。下图中的示例数据流由五个子task执行，因此由五个并行线程执行。Job Managers，Task Managers，ClientsFlink运行的时...

2019-10-22 21:43:51 2506 1

原创 7、Flink中的Time及Windows的使用

Time事件时间 Event time（最准确）：事件时间是每个事件在其生产设备上发生的时间。摄取时间 Ingestion time：摄取时间是事件进入Flink的时间。处理时间 Processing time（不准确）：处理时间是指正在执行相应操作的机器的系统时间。不论流处理还是批处理；都建议以事件时间 Event time为基准来计算。设置时间类型val env = Stream...

2019-10-14 20:17:34 712

原创 6、Flink Table API & SQL编程

1、Flik关系型api概念最底层的Stateful event driven application是最难以使用的，因为接近底层；中层的DataStream api和DataSet api是对于开发人员来说是可以接受的；最上层的High-level编程格式是对各个程序员来说基本都会使用的，基于SQL的操作，同时也是流处理和批处理的一种统一的高级API。注意：（目前博客是1.9版本）Tabl...

2019-10-08 21:41:08 261

原创 5、DataStream API

1、编程概述Flink中的DataStream程序是常规程序，可对数据流实施转换（例如，iltering, updating state, defining windows, aggregating）。最初从各种来源（例如，消息队列，套接字流，文件）创建数据流。结果通过接收器返回，接收器可以例如将数据写入文件或标准输出（例如命令行终端）。Flink程序可以在各种上下文中运行，独立运行或嵌入其他程...

2019-09-27 12:46:07 369

原创 4、DataSet API编程

1、概念Flink中的DataSet程序是常规程序，可对数据集进行转换（filtering, mapping, joining, grouping）。最初从某些来源(sources)（by reading files, or from local collections）创建数据集。结果通过接收器返回，接收器可以例如将数据写入（分布式）文件或标准输出（例如命令行终端）。Flink程序可以在各种上...

2019-09-23 21:53:09 421

原创 3、编程模型以及核心概念

核心概念官网链接DataSet and DataStreamFlink具有特殊类DataSet并DataStream在程序中表示数据。您可以将它们视为可以包含重复项的不可变数据集合。在DataSet数据有界的情况下（批处理），对于一个DataStream元素的数量可以是无界的（流处理）。这些集合（数据）在某些关键方面与常规Java集合不同。首先，它们是不可变的，这意味着一旦创建它们就无法添...

2019-09-19 20:57:35 289

原创 2、快速上手开发Flink应用程序

开发环境准备1、JDK2、Maven3、IDEA使用Flink开发一个批处理应用程序以最简单的 word count 为案例开发流程set up the batch execution environmentreadtransform operations 开发的核心所在：开发业务逻辑execute program以Java语言开发官方网站案例第一种创建项目的方式m...

2019-09-16 20:53:15 453

原创 1、初识flink

Flink概述flink是什么Unbounded

2019-09-12 21:42:21 347

原创数学符号大全

常用符号符号代码含义≠≠不等于≠\neq̸=$\neq$不等于==等于≈\approx≈$\approx$约等于≤\leq≤$\leq$小于等于≥\geq≥$\geq$大于等于×\times×$\times$乘号±\pm±$\pm$正负号÷\div÷$\div$除号∣\mid∣$\...

2019-09-06 16:57:32 10514 1

原创将博客搬至CSDN

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-09-06 13:49:00 188

原创 1、集合与运算

集合：具有某种特定性质的事物的总体　　　组成这个集合的事物称为该集合的元素　　　a∈M：表示元素a属于集合Ma∉M：表示元素a不属于集合M集合的两种表示方法：1、列举法A={a1，a2，a3，a4，......，an}A= \lbrace a_1，a_2，a_3，a_4，......，a_n \rbraceA={a1，a2，a3，a4，......，an}2、描述法...

2019-09-06 11:31:52 418

原创大数据任务调度（Azkaban，Oozie）

文章目录常见调度工具OozieOozie架构Oozie运行原理Oozie 工作三大核心Oozie 元数据库Oozie Action 节点类型Oozie Job 创建方式Hue 创建 Oozie job 步骤及演示常见调度工具CRONTAB （最简单的方式，适合不是非常复杂的场景，比如只按照时间来调度）OOZIE（Hadoop自带的）AZKABAN（开源的一个调度工具）定制开发O...

2019-09-03 17:30:09 6228

原创 SQL多行转一行（一列转多列）

前景apply_id bigint COMMENT ‘申请id’,oss_key string COMMENT ‘存储在oss上的路径’,type string COMMENT ‘类型,10-身份证数据,20-人脸照,30-运营商,40-魔杖报告,50-补充信息’,SELECT apply_id,type,oss_keyFROM zizhirisk.ods_t_apply...

2019-07-26 09:58:58 6932

原创 --- spark的job在yarn的资源分配

资源现在有6台机器每台机器16个core 64g的内存资源分配6Node 16core/台 64g/台现可用资源一共96个core 384g ；每台机器预留1core和1g；那么剩下90个core 378g的可用资源分配corecore=5 官方定义超过5会对hdfs吞吐量造成影响也就是说每个executor最多可以同时运行5个core分配executor用剩余的core除以每...

2019-06-25 11:52:48 597

原创 8、Hive的元数据

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-20 13:40:00 180

原创 Hive SQL的执行流程

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-20 10:40:00 286

原创 7、hive的UDF使用

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-18 14:09:00 235

原创 6、hive中的file_format

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-17 15:39:00 1080 1

原创 hue-3.9-cdh-5.7.0安装

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-15 10:04:00 229

原创 hadoop配置支持LZO压缩格式

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-14 17:41:00 262

原创使用shell脚本发送邮件带附件

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-12 15:00:00 1497

原创 5、shell编程

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-11 20:30:00 199

原创 sqoop入门

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-09 20:29:00 198

原创 Hadoop编译支持5种压缩格式

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-02 15:25:00 308

原创如何确定block损坏的位置和修复

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-01 22:10:00 700

原创大数据压缩

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-01 17:00:00 338

原创 number of splits 划分的条件

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-04-01 10:58:00 614

原创 4、Hadoop高级之HDFS&YARN HA部署

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-03-31 17:14:00 388

原创 3、Hadoop高级之HDFS&YARN HA架构剖析

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-03-29 22:17:00 200

原创 2、Hadoop离线项目之数据清洗

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-03-26 20:43:00 404

原创 1、Hadoop离线项目整体技术

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ...

2019-03-25 19:56:00 189

原创 kafka可靠的数据传递--

文章目录基本保证broker可靠性生产者可靠性消费者可靠性基本保证broker可靠性副本系数：replication.factor = 3⼀般设为3，为了更高的安全性，可以设为5，同时考虑副本的分布不完全的选举：unclean.leader.election.enable = true/false允许不同步的副本成为首领：可用性和一致性之间权衡最少同步副本：min.i...

2019-03-15 16:20:59 379

原创 kafka集群管理--

文章目录主题操作消费者群组生产和消费代码演示主题操作bin/kafka-topics.sh —zookeeper localhost:2181/kafka#(在server.properties里配置的zk的路径)# 创建主题--create --if-not-exists --topic demo_kafka --partitions 2 --replication-factor 2#...

2019-03-15 16:09:43 189

原创 kafka元数据管理--

文章目录ZK结构树admin节点brokers节点consumers节点config节点controller节点ZK结构树admin节点brokers节点consumers节点/consumers/[groupId]/ids/[consumerIdString]/consumers/[groupId]/owners/[topic]/[partitionId] -&amp;gt; co...

2019-03-15 15:23:54 4219 1

原创 kafka配置体系--

文章目录配置概览动态配置命令broker配置topic配置客户端配置配置概览动态配置命令少量配置可以在机器/程序运行期间进行动态修改，动态配置的内容存在ZK之中示例例：bin/kafka-configs.sh --bootstrap-server localhost:9092 --entity-type brokers --entity-default --alter --add-c...

2019-03-15 14:42:27 264