敲代码的彭于晏-CSDN博客

原创 Flume分布式日志采集

Apache Flume概述Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。使用Flume这套架构实现对日志流数据的实时在线分析。Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的

2022-08-01 10:18:02 2067

原创 Flink面试题

1.Flink 相比传统的 Spark Streaming 有什么区别?Flink 是标准的实时处理引擎，基于事件驱动。而 Spark Streaming 是微批（Micro-Batch）的模型。1. 架构模型Spark Streaming 在运行时的主要角色包括：Master、Worker、Driver、Executor，Flink 在运行时主要包含：Jobmanager、Taskmanager和Slot。2. 任务调度Spark Streaming 连续不断的生成微小的数据批次，构建有向无环

2022-08-01 10:15:57 686

原创 Syslog、WMI、Windows日志、FTP、SFTP、SCP、NetFlow、JMS、ActiveMQ采集协议

采集协议

2022-08-01 10:11:58 3608

原创 idea快捷键

idea快捷键

2022-06-20 21:59:34 216

原创 Spark SQL面试题

1.RDD DataFrame DataSet的区别（1）三者之间的关系DataFrame是特殊的RDD(它相当于RDD+schema，即RDD+表信息)，可以将他看成数据库中的一张数据表，但是只知道这个"表"中的各个字段，不知道各个字段的数据类型。Dataset是DataFrame的父类，当Dataset中存储Row(Row是一个类型，跟Car、Person这些的类型一样，所有的表结构信息我都用Row来表示)时，两者等价(Dataset[Row]=DataFrame)。（2）各自优缺点

2022-05-09 16:43:33 1869

原创 Spark streaming知识

目录一.SparkStreaming有哪几种方式消费kafka中的数据,他们之间的区别是什么?二.Spark Streaming窗口函数的原理三.spark streaming 容错原理4.背压机制5.Spark Streaming 如何实现精确一次消费一.SparkStreaming有哪几种方式消费kafka中的数据,他们之间的区别是什么?1.基于Receiver的方式这种方式使用Receiver来获取数据.Receiver是使用kafka的高层次Consumer.

2022-05-09 10:40:55 531 1

原创 Spark知识

1.Spark 的运行流程？1.SparkContext初始化上下文2.SparkContext 向资源管理器注册并向资源管理器申请运行 Executor3.启动计算进程服务，并且告知这些进程服务于哪个job4.ExecutorExecutor 反向注册给Context、Dirver5.SparkContext 构建 DAG 有向无环图6.将 DAG 分解成 Stage（TaskSet）7.把 Stage 发送给 TaskScheduler8.Executor 向 Spa

2022-05-08 22:24:58 921

原创 Hive面试题

目录1.hive架构2.hive如何将hql语法转换成MR执行3.hive和传统的RDBMS数据块比较4.Hive中的压缩格式RCFile、 TextFile、 SequenceFile 各有什么区别？5.Hive中追加导入数据的4种方式是什么？请写出简要语法6.Hive调优7.Hive Stage划分8.内部表与外部表9.分区10.桶11.压缩12.数据倾斜问题13.Hive中order by，sort by，distribute by和...

2021-10-16 17:18:40 575

原创 MyBatis

1、#{}和${}的区别是什么？Mybatis在处理#{}时，会将sql中的#{}替换为？号，调用PreparedStatement的set方法来赋值；mybatis在处理${}时，就是将${}替换成变量的值.PS:使用#{}可以有效的防止SQL注入，提高系统安全性(语句的拼接)，如果使用在order by 中就需要使用 ${}。最大区别在于：#{} 传入值时，sql解析参数是带引号的，而${}传入值时，sql解析参数是不带引号的。--Mybatis在处理#{}时select id,na

2021-09-22 17:58:45 966

原创 hive将两列的值拼接为一列，数字前补0

原始数据：①使用 from_unixtime函数将日期转换为数字格式select from_unixtime(unix_timestamp(s_birth,'yyyy-MM-dd hh:mm:ss'),'yyyyMMddhhmmss') from student_hive;②使用concat函数拼接select concat(s_id,(from_unixtime(unix_timestamp(s_birth,'yyyy-MM-dd hh:mm:ss'),'yyyyM...

2021-09-21 21:29:16 4050 1

原创 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apa

原因：缺少hive jar包解决办法：将hive/lib 包下的hive-common-1.2.2.jar和hive-exec-1.2.2.jar 拷贝到sqoop/lib包下[root@CentOS7 sqoop-1.4.7]# cp /usr/apache-hive-1.2.2-bin/lib/hive-common-1.2.2.jar /usr/sqoop-1.4.7/lib/[root@CentOS7 sqoop-1.4.7]# cp /usr/apache-hive-1.2...

2021-09-21 20:15:41 6239 1

原创请问，计算平均值，在sql语句直接计算，和java后台计算，各自的利弊是什么

如果是大型的应用，比如说大的并发量，数据库是瓶颈的，所以尽可能的采用java代码，毕竟应用服务器的扩展比起数据库的扩展要好的多。小型应用的话，数据库都处于闲置状态不用白不用了，效率肯定要高。存计算而言，Java和数据库不相上下如，计算1-10的平均数，两者差不多（目前没有这方面比较的专业资料，个人认为Java略快）对数据库中多行记录某字段做平均值，数据库比Java快因此数据库直接在内部处理了数，Java有个转换过程如，数据库有n条记录，对字段A做计算，Java先

2021-09-18 15:56:19 1656

原创 MySQL

1.MyISAM与InnoDB的区别？InnoDB 支持事务；MyISAM 不支持事务 InnoDB 支持行级锁；MyISAM 支持表级锁 InnoDB 支持 MVCC(多版本并发控制)；MyISAM 不支持 InnoDB 支持外键，MyISAM 不支持 MySQL 5.6 以前的版本，InnoDB 不支持全文索引，MyISAM 支持；MySQL 5.6 及以后的版本，MyISAM 和 InnoDB 存储引擎均支持全文索引 InnoDB 不保存表的总行数，执行 select count(*)

2021-09-02 18:43:41 1135 1

原创 Oracle

一.Oracle 一.数据库数据库：数据仓库电脑存储数据的介质有哪些？硬盘和内存内存：程序运行过程中产生数据多存储在内存中例如：int 5;List list =new ArrayList(); Scanner本质都是在内存中硬盘：数据会持久化存储在硬盘上的文件系统中例如：1.txt 呵呵.avi 问题：Oracle数据库中数据是存储在哪呢？ ...

2021-09-01 22:04:00 412 1

原创 Java面试题

一.Java基础1.请你谈谈Java中是如何支持正则表达式操作的？Java中的String类提供了支持正则表达式操作的方法，包括：matches()、replaceAll()、replaceFirst()、split()。此外，Java中可以用Pattern类表示正则表达式对象，他提供了丰富的API进行各种正则表达式操作。import java.util.regex.Matcher;import java.util.regex.Pattern;class RegExpTest {

2021-08-24 18:07:13 2413 1

原创大数据面试题（三）Kafka

三.Kafka目录1.Kafka名词解释和工作方式2.Consumer与topic关系3.kafka中生产数据的时候，如何保证写入的容错性？4.如何保证kafka消费者消费数据是全局有序的5.列举kafka的优点，简述kafka为什么可以做到每秒数十万甚至上百万消息的高效分发？6.为什么离线分析要用kafka7.kafka怎么进行监控8.kafka与传统消息队列有什么不同9.kafka的ISR副本同步队列10.kafka消息数据积压，kafka消费能力不足怎么处.

2021-08-22 21:42:07 1780

原创大数据面试题（二）HBase

二.HBase目录二.HBase1.HBase调优2.hbase的rowkey怎么创建好？列簇怎么创建比较好？3.hbase过滤器实现用途4.HBase宕机如何处理5.hive和hbase的区别是？6.hbase写流程7.hbase读流程8.hbase数据flush过程9.数据合并过程10.Hmaster和Regionserver职责11.HBase列簇和region的关系12.请简述Hbase的物理模型是什么13.请问如果使用Hbase做即席查询

2021-08-19 21:16:14 433

原创 Apache Kafka消息队列

概述Apache Kafka是Apache软件基金会的开源的流处理平台，该平台提供了消息的订阅与发布的消息队列，一般用作系统间解耦、异步通信、削峰填谷等场景。同时Kafka又提供了Kafka streaming插件包实现了实时在线流处理。相比较一些专业的流处理框架不同，Kafka Streaming计算是运行在应用端，具有简单、入门要求低、部署方便等优点。总体来说Kafka这门课程需要大家掌握以下两个方面：消息队列Message QueueKafka Streaming 流处理消息队列是一种

2021-08-19 15:20:01 548

原创大数据面试题（一）Hadoop

一.Hadoop目录一.Hadoop1.hdfs写流程2.hdfs读流程3.hdfs体系结构4.一个DataNode宕机，怎么一个流程恢复。5.Hadoop的namenode宕机怎么解决？6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程9.Hadoop中combiner和partition的作用10.用MapReduce怎么处理数据倾斜问题？11.shuffle阶段，你怎么理解的12.MapReduce的m..

2021-08-18 21:47:03 1424

原创 Sqoop辅助工具

概述Apache Sqoop（TM）是一种旨在在Apache Hadoop和结构化数据存储（例如关系数据库）之间高效传输批量数据的工具。通过内嵌的MapReduce程序实现关系型数据库和HDFS、Hbase、Hive等数据的倒入导出。安装1、访问sqoop的网址http://sqoop.apache.org/，选择相应的sqoop版本下载，本案例选择下载的是1.4.7，下载完相应的工具包后，解压Sqoop:[root@CentOS ~]# tar -zxf sqoop-1.4.7.bin__had

2021-08-12 14:15:33 281

原创 Apache Hive BI分析

Apache Hive背景Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL-Extract-Transform-Load），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。 Hive 并非为联机事务

2021-08-12 14:14:10 475

原创 Java基础（22）设计模式

二十二.设计模式什么是设计模式？一些经常被人使用，被多数人知晓的，且被分类编目的程序设计经验的总结一.单例模式单例：一个类所创建出的对象在JVM内存中只能有一个，那么该类就是单例的多例：一个类所创建出的对象在JVM内存中有多个，那么该类就是多例的如果想保证一个类是单例的就要使用单例模式 1.饿汉式 class MyClass{ public static ...

2021-08-12 14:09:59 97

原创 Java基础（20）线程

二十.线程进程：在操作系统上（os），一个独立运行的任务被称为进程，进程是可以并发执行的（即多个进程可以同时运行）线程是进程中，多个并发执行的任务逻辑，线程是进程的组成单位，一个进程至少要有一个线程，原因是：进程的任务实际的执行者是线程类比进程——小组线程——小组成员任务是分配给小组的，但实际执行小组任务的是小组成员一个进程的任务实际上是由（1——n）个线程来完成的，对于java来说，JVM...

2021-08-12 14:09:46 222

原创 Java基础（19）IO流

十九.IO流持久化：将内存中的数据输出到其他设备中（比如硬盘），用于长时间保持数据流：数据传输的管道或通道 i是in的缩写表示输入，o是out的缩写表示输出，io则表示了两个不同方向流一般的我们以内存为参照物，往内存中写入的方向我们称之为输入，从内存往外输入的方向我们称之为输出一.IO流的分类注意：一般描述一个流时，需要通过方向，内容，功能等三个方面进行描述，所以说不同的分类键需要三者组...

2021-08-12 14:09:30 156

原创 Java基础（18）异常

十八.异常异常：程序在执行过程中，出现的非正常现象异常的处理：程序在执行过程中，出现的非正常现象，而这些非正常现象往往会对用户造成一定的损失为了规避和减少用户的损失，我们需要在异常出现的时候，做出一些补救措施一.异常与错误 java中异常与错误都是以对象的形式体现的，所以异常与错误对应的都有自己的类 java中所有异常的父类都是Exception java中所有的错...

2021-08-12 14:09:14 195

原创 Java基础（17）集合

十七.集合集合：集合是一种容器是用来进行数据存储的并提供了丰富的方法用来操作去所存的内容集合与数组的区别：数组的长度是固定的，操作繁杂，开发起来效率低（写代码效率低）集合则提供了很多方法用来操作所存内容操作简单开发起来效率高（写代码效率高）一.Collection类型集合的体系二.Collection集合 1.能存什么内容 Collect...

2021-08-12 14:08:57 258

原创 Java基础（16）String

十六.String String实际上就是对一个char类型数组的封装，String中提供了很多方法，用来帮助我们有效的操作这个char类型的数组一.String类型对象的创建 1.通过字符串常量的形式来创建字符串 String str="HelloWorld"; "HelloWorld"字符串的形式被称为字符串常量字符串常量也是String类型的对象，但是该对象的创建不在代码的运行时期，而是在类加载...

2021-08-12 14:08:29 199

原创 Java基础（21）反射

二十一.反射类对象当虚拟机进行类加载时，会将读进的信息保存类对中并放置在堆里，类对象对应的模板叫做Class 类的对象以某个类为模板创建出的对象我们称之为类的对象一.如何获取一个类对象需要掌握 1.通过类的对象调用getClass()方法获取类对象 Student student = new Student(); Class class1=student.getClass(); ...

2021-08-12 14:08:10 165

原创 Java基础（15）包装类

十五.包装类包装类：为了让Object可以统一管理所有的数据类型 JDK为八种基本数据类型提供了与之一一对应的引用类型这些数据类型被称为包装类包装类的意义： a.为了让Oject可以统一管理所有的数据类型 b.提供一些方法与该类型相关的方法，方便开发使用 c.可以通过null值来区分有效与无效数据一.八种基本数据类型对应的包装类必须背会所有的包装类都被放置在...

2021-08-12 14:07:55 185

原创 HBase分布式数据库（NoSQL）

Apache HBase介绍HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop的HDFS之上提供了类似于Bigtable的能力。HDFS和HBase之间的关系HBase的全称Hadoop Database，HBase是构建在HDFS之上的一款数据存储服务，所有的物理数据都

2021-08-10 12:05:25 1314

idea快捷键大全^_^

空空如也