自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 Shell 中删除文件指定内容

Shell 中删除文件内容的几个用法1、删除包含指定关键字的行:sed -i '/hello/d' 文件名2、删除指定行号的行sed -i '2d' 文件名3、删首行sed -i '1d' 文件名4、删尾行sed -i '$d' 文件名5、删空格sed -i 's/[ ]*//g' 文件名6、删空行sed -i '/^$/d' 文件名...

2021-11-24 16:04:26 12829 1

原创 SQL中 IF()、IFNULL()、NULLIF()、ISNULL()流程控制函数

在MySQL中可以使用IF()、IFNULL()、NULLIF()、ISNULL()函数进行流程的控制。1、IF()函数的使用IF(expr1,expr2,expr3),如果expr1的值为true,则返回expr2的值,如果expr1的值为false,则返回expr3的值。SELECT IF(TRUE,'A','B'); -- 输出结果:ASELECT IF(FALSE,'A','B'); -- 输出结果:B2、IFNULL()函数的使用IFNULL(expr1,expr2),如果

2021-09-15 10:20:01 654

原创 flink(二):DataStreamAPI和状态管理

flink(二):DataStreamAPI和状态管理Stream(DataStreamAPI)参考:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/datastream_api.htmlDataSource:数据源数据源是程序读取数据的来源。用户可以通过StreamExecutionEnvironment.addSource(sourceFunction)将数据源添加到程序中。Flink提供了很多的sourceF

2021-08-15 14:56:19 272

原创 Flink(一):flink安装入门和运行架构

Flinkflink是什么?Apache Flink是2014年12月份诞生的一个基于内存流计算引擎。ApacheFlink是一个用于在无界和有界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计成在所有常见的集群环境中运行,以内存速度和任何规模执行计算。Flink 特点可以处理有界和无界数据流。可以运在任何位置。(第三方资源管理器yarn,k8s等 和 自带资源管理器)以任何规模运行应用程序随处部署应用程序命令执行远程部署图形界面(比较常用的)充分利用内存性能

2021-08-15 14:46:36 391

原创 Maven打胖jar包!maven打包

Maven打包package出两个jar包,一个只包含自己写的代码,一个包含所有导入依赖的jar包,俗称胖jar包。<!-- project下--><build> <plugins> <!--scala编译插件--> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>sca

2021-08-12 19:53:31 1186

原创 Spark(五):Spark Streaming

文章目录一、简介二、总结2.1.数据的读取:2.1.数据的计算:2.3.数据的写出:三、简单应用之从不同数据源读取数据进行计算然后输出:3.1从LINUX的一个端口中使用nc发送数据,然后读取3.2从hadoop10的HDFS文件系统上读取3.3从Kafka读取数据四、work在工作的时候 Executor从哪个分区中拿数据进行计算五、DStream中的状态转换`updateStateByKey`一、简介Spark处理的是批量的数据(离线数据),Spark Streaming实际上是对接的外部数据流之后

2021-08-11 21:23:36 262

原创 Spark SQL两道超经典练习题!必会!

Spark SQL 练习题题目1:有50W个京东店铺,每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志,访问日志存储的表名为Visit,访客的用户id为user_id,被访问的店铺名称为shop,请统计:1)每个店铺的UV(访客数)2)每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数数据参考:jd_visit.log文件u1 au2 bu1 bu1 au3 cu4 bu1 au2 cu5 bu4 bu6 cu2 cu1 bu2 au

2021-08-10 22:36:59 1721 2

原创 Spark(四):Spark整合Hive

首先在Hive中建好表 加载好数据create table t_user(id int,name string,age int)row format delimited fields terminated by '\t';load data local inpath '/opt/user.log' into table t_user;在命令行访问HiveSpark 要接管 Hive 需要把 hive-site.xml copy 到spark/conf/目录下• 把 Mysql 的驱

2021-08-10 22:20:10 193

原创 Spark(三): Spark SQL | DataFrame、DataSet、RDD转换 | SQL练习

文章目录Spark SQL一、Spark SQL概述1.什么是DataFrame2.什么是DataSet二、Spark SQL编程1.DataFrame1.1 创建DataFrame1.2 SQL风格语法 [重点]1.3 DSL风格语法1.4 RDD转换为DataFrame1.5 DataFrame转换为RDD2.DataSet2.1 创建DataSet2.2 RDD转换为DataSet2.3 DataSet转换为RDD3.DataFrame和DataSet的互操作3.1 DataFrame转换为Dat.

2021-08-10 22:17:20 256

原创 大数据开发超高频面试题!大厂面试必看!包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、数仓等

大数据开发面试题包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、数仓等高频面试题。数据来自原博主爬虫获取!Hadoop一、HDFS文件写入和读取过程可灵活回答 :1)HDFS读写原理(流程)2)HDFS上传下载流程3)讲讲(介绍下)HDFS4)HDFS存储机制回答这个问题之前,我们先来看下机架感知 机制,也就是HDFS上副本存储结点的选择。Hadoop3.x副本结点选择:由上图可知,第一个副本在Client所处的节点上。如

2021-08-10 11:06:39 1665

原创 大数据面试(二):Kafka面试题

面试题 01 什么是消息队列?消息队列就是用于当两个系统之间或者两个模块之间实现消息传递时,基于队列机制实现数据缓存的中间件面试题 02 消息队列有什么好处?•实现解耦,将高耦合转换为低耦合•通过异步并发,提高性能,并实现最终一致性面试题03、Kafka是什么?•Kafka是一个基于订阅发布模式的高性能、高吞吐的实时消息队列系统面试题04、Kafka在大数据中用于什么场景下?•用于实时架构中,实现将实时数据采集的数据进行实时存储,供于SparkStreaming或者Flink等工具实现实时.

2021-08-08 20:00:02 541

原创 大数据面试(一):Hive面试题

面试题01、 请说下Hive和数据库的区别Hive 和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,3)执行延迟Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。4)数据规模Hive支持很大规模的数据计算;数.

2021-08-08 19:52:23 698 4

原创 Spark(二):Spark的RDD

Spark(二):Spark的RDDSpark 程序,一般都包含一个Driver Program用于运行main函数,在该函数中执行着各种各样的并行操作。其中在Spark中有重要的概念RDD。该RDD是一个带有分区的分布式数据集,将数据分布存储在Spark集群的各个节点。当对RDD做任何操作,该操作都是并行的。RDD特点RDD Represents an immutable, partitioned collection of elements that can be operated on in

2021-08-08 13:36:18 377

转载 Spark的Driver节点和Executor节点

1.驱动器节点(Driver)Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操作和行动操作代码的执行。如果你是用spark shell,那么当你启动 Spark shell的时候,系统后台自启了一个 Spark 驱动器程序,就是在Spark shell 中预加载的一个叫作 sc 的 SparkContext 对象。如果驱动器程序终止,那么Spark 应用也就结束了。Driver在spark作业执行

2021-08-08 11:28:27 1439

原创 Spark(一):基础简介安装和入门

Spark 基础一、Spark的介绍1.定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。2.Spark VS MapReduceSpark的诞生仅仅是为了替换早期的Hadoop的MapReduce计算引擎。Spark并没有存储解决方案,在Spark的架构中,底层存储方案依然延续Hadooop的HDFS/Hbase.由于Hadoop的MapReduce是大数据时代出现的第一类大数据分析工具,因为出现比较早仅仅为了满足大数据计算的刚性需求(能够做到对大数据的计算,并且可以保证在一

2021-08-04 23:04:52 279

原创 scala的高阶函数(算子)

scala的高阶函数(算子)scala简介1.Scala是一门多范式的静态类型编程语言,Scala支持【面向对象】和【函数式编程】2.Scala源代码(.scala)会被编译成java字节码(.class),然后运行在JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接Scala匿名函数知识补充:1.不需要写def 函数名2.不需要写返回类型,使用类型推导3.= 变成 =>4. 如果有多行则使用{}包括,否则建议省略 //普通的函数 def test1(v

2021-08-04 22:48:29 629

原创 开窗函数(分析函数)使用详解

开窗函数简介开窗函数:在开窗函数出现之前存在着很多用 SQL 语句很难解决的问题,很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题,在 2003 年 ISO SQL 标准加入了开窗函数,开窗函数的使用使得这些经典的难题可以被轻松的解决。目前在 MSSQLServer、Oracle、DB2 等主流数据库中都提供了对开窗函数的支持,MySQL8.0支持。 5.7 --> 8.0开窗函数简介:与聚合函数一样,开窗函数也是对行集组进行聚合计算,但是它不像普通聚合函数那样每组只返回一个

2021-08-01 23:31:25 12162 6

原创 hdfs的checkpoint及namenode故障恢复

Hdfs中 nameNode的持久化相关# 1. HDFS接受客户端的文件操作后。# 2. 先将操作的命令 以日志的方式记录到editslog中。# 3. 然后再将指令对应的文件元数据的修改操作,修改内存中的元数据信息。# 4. SNN定期负责将editslog中的文件合并到fsimage中。Hdfs的checkPoint机制SecondaryNameNode向NameNode发起合并请求NameNode将当前的Editslog文件保存改名edits,并新建EditsLog继续持久

2021-08-01 16:27:32 635

原创 Hive内部表外部表相互转换

内部表与外部表转换区别就不用多说了代码如下create table tablePartition(s string) partitioned by(pt string);alter table tablePartition add if not exists partition(pt='1');alter table tablePartition set TBLPROPERTIES ('EXTERNAL'='TRUE'); //内部表转外部表alter table tableParti

2021-07-31 00:51:22 296

原创 kafka安装和学习使用

Kafka的学习和使用本文是基于CentOS 7.3系统环境,进行Kafka的学习和使用Kafka0 Kafka基本概念(1) 什么是KafkaKafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域>(2) 消息队列点对点模式的消息队列对一个消息而言,只会有一个消费者可以消费,消费者主动拉取消息,消息收到后,会将消息删除基于发布/订阅模式的消息队列发布到topic的消息会被所有订阅者消;费,消费者消费完消息后不会删除消息队列主动推送适用于消费者处理

2021-07-25 09:18:14 652 1

原创 Patition By 总结

Hive中Patition By 使用1.创建分区表 添加数据数据源文件# 文件"bj.txt" (china bj数据)1001,张三,1999-1-9,1000.01002,李四,1999-2-9,2000.01008,孙帅,1999-9-8,50000.01010,王宇,1999-10-9,10000.01009,刘阳,1999-9-9,10.0# 文件“tj.txt” (china tj数据)1006,郭德纲,1999-6-9,6000.01007,胡鑫,1999-7-9,

2021-07-19 10:01:36 217

原创 Kafka和ZK集群一键启动关闭

Kafka和ZK集群 脚本每台虚拟机都要启动关闭 太麻烦了shell脚本 一键启动 关闭 他不香吗?上脚本→注意:启动脚本的虚拟机要配置免密登录到到另外的虚拟机包括本机也要配置Zookeeper 一键启动 关闭 查看状态注:自行配置命令路径 没有配置环境变量就用绝对路径,就不用source刷新#! /bin/bash case $1 in "start"){ #!hadoop11 hadoop12 hadoop13主机映射主机名 自行配置 for i in had

2021-07-16 20:50:02 402 5

原创 Flume入门必看

Flume一、概述本文参考原文链接1.Flume定义Flume是Cloudera提供的一个海量日志采集、传输的系统。Flume基于流式架构,灵活简单。2.Flume优点① 可以和任意存储进程集成② 输入的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。③ flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。​ Flume使用两个独立的事务分别负责从source到channel,以及从

2021-07-15 19:28:53 283 2

原创 Hive安装和学习

HiveHive 引言简介hive是facebook开源,并捐献给了apache组织,作为apache组织的顶级项目(hive.apache.org)。 hive是一个基于大数据技术的数据仓库(DataWareHouse)技术,主要是通过将用户书写的SQL语句翻译成MapReduce代码,然后发布任务给MR框架执行,完成SQL 到 MapReduce的转换。可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。总结Hive是一个数据仓库Hive构建在HDFS上,可以存储海量数据。

2021-07-13 17:25:10 356 3

原创 Zookeeper +Hadoop HA

1. zookeeper引言简介Apache ZooKeeper是Apache软件基金会的一个软件项目,大数据集群服务器的管理者协调者。简言:ZK就是一个管理多个服务(集群分布式环境下)的通知机制 Watcher+文件系统ZNode 文件系统:保存少量,服务器相关的配置文件信息。Watcher 监听通知机制:注册监听服务器的上下线。特点zk集群中的数据内容,完全一致。zk作为集群管理者,天生不存在单点问题。zk的主机是动态选举出来的。应用场景2. 集群安装

2021-07-13 17:05:19 449

原创 Yarn伪分布式和分布式安装

Yarn介绍# 概念 是MapReduce代码的运行环境,为mapreduce提供所需资源分配调度。 Yarn-分布式资源调度器(CPU 内存) 监控管理调度多个服务器上的计算资源-CPU 内存等。 伪分布式安装① 准备HDFS集群环境[root@hadoop10 ~]# jps2224 Jps2113 SecondaryNameNode1910 DataNode1806 NameNode② 初始化Yarn相关配置文件# 1. mapred-site.xml(m

2021-07-13 16:53:55 218

原创 HDFS伪分布式和分布式安装搭建

HDFS伪分布安装服务器准备# 1. 准备虚拟机hadoop10# 1. 设置hostname hostnamectl set-hostname hadoop10# 2. 配置hosts(linux+windows) vim /etc/hosts ----------以下是文件信息------------ 192.168.199.8 hadoop10 补充: 一定要配置windows对集群中所有节点的映射关系。# 3. 关闭防火墙

2021-07-13 16:44:08 211

原创 vue+element-ui搭建

新建vue-cli项目vue init webpack element-ui-test #element-ui-test为项目名,可以自定义在项目中添加 element-ui 库#进入到项目目录,执行安装element-ui的命令cd element-ui-test #进入到项目目录npm install element-ui axios vue-axios --save #安装element-ui在main.js中配置 element-ui// The Vue build v..

2021-07-13 16:21:53 160

flink安装.pdf

flink的安装

2021-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除