郎er
码龄4年
关注
提问 私信
  • 博客:41,364
    社区:50
    动态:36
    41,450
    总访问量
  • 27
    原创
  • 2,048,587
    排名
  • 21
    粉丝
  • 0
    铁粉

个人简介:我是郎儿,博客当笔记用的。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2021-06-27
博客简介:

m0_59737088的博客

查看详细资料
个人成就
  • 获得67次点赞
  • 内容获得24次评论
  • 获得0次收藏
  • 代码片获得177次分享
创作历程
  • 28篇
    2021年
成就勋章
TA的专栏
  • 笔记
    2篇
  • SQL
    1篇
  • 大数据
    20篇
  • 大数据练习
    1篇
  • 大数据面试
    3篇
  • 前端
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Shell 中删除文件指定内容

Shell 中删除文件内容的几个用法1、删除包含指定关键字的行:sed -i '/hello/d' 文件名2、删除指定行号的行sed -i '2d' 文件名3、删首行sed -i '1d' 文件名4、删尾行sed -i '$d' 文件名5、删空格sed -i 's/[ ]*//g' 文件名6、删空行sed -i '/^$/d' 文件名...
原创
发布博客 2021.11.24 ·
13190 阅读 ·
5 点赞 ·
1 评论 ·
48 收藏

SQL中 IF()、IFNULL()、NULLIF()、ISNULL()流程控制函数

在MySQL中可以使用IF()、IFNULL()、NULLIF()、ISNULL()函数进行流程的控制。1、IF()函数的使用IF(expr1,expr2,expr3),如果expr1的值为true,则返回expr2的值,如果expr1的值为false,则返回expr3的值。SELECT IF(TRUE,'A','B'); -- 输出结果:ASELECT IF(FALSE,'A','B'); -- 输出结果:B2、IFNULL()函数的使用IFNULL(expr1,expr2),如果
原创
发布博客 2021.09.15 ·
700 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

flink(二):DataStreamAPI和状态管理

flink(二):DataStreamAPI和状态管理Stream(DataStreamAPI)参考:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/datastream_api.htmlDataSource:数据源数据源是程序读取数据的来源。用户可以通过StreamExecutionEnvironment.addSource(sourceFunction)将数据源添加到程序中。Flink提供了很多的sourceF
原创
发布博客 2021.08.15 ·
306 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink(一):flink安装入门和运行架构

Flinkflink是什么?Apache Flink是2014年12月份诞生的一个基于内存流计算引擎。ApacheFlink是一个用于在无界和有界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计成在所有常见的集群环境中运行,以内存速度和任何规模执行计算。Flink 特点可以处理有界和无界数据流。可以运在任何位置。(第三方资源管理器yarn,k8s等 和 自带资源管理器)以任何规模运行应用程序随处部署应用程序命令执行远程部署图形界面(比较常用的)充分利用内存性能
原创
发布博客 2021.08.15 ·
421 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

flink安装.pdf

发布资源 2021.08.15 ·
pdf

Maven打胖jar包!maven打包

Maven打包package出两个jar包,一个只包含自己写的代码,一个包含所有导入依赖的jar包,俗称胖jar包。<!-- project下--><build> <plugins> <!--scala编译插件--> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>sca
原创
发布博客 2021.08.12 ·
1256 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

Spark(五):Spark Streaming

文章目录一、简介二、总结2.1.数据的读取:2.1.数据的计算:2.3.数据的写出:三、简单应用之从不同数据源读取数据进行计算然后输出:3.1从LINUX的一个端口中使用nc发送数据,然后读取3.2从hadoop10的HDFS文件系统上读取3.3从Kafka读取数据四、work在工作的时候 Executor从哪个分区中拿数据进行计算五、DStream中的状态转换`updateStateByKey`一、简介Spark处理的是批量的数据(离线数据),Spark Streaming实际上是对接的外部数据流之后
原创
发布博客 2021.08.11 ·
279 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

晚安 淦不动了睡觉睡觉

发布动态 2021.08.11

Spark SQL两道超经典练习题!必会!

Spark SQL 练习题题目1:有50W个京东店铺,每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志,访问日志存储的表名为Visit,访客的用户id为user_id,被访问的店铺名称为shop,请统计:1)每个店铺的UV(访客数)2)每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数数据参考:jd_visit.log文件u1 au2 bu1 bu1 au3 cu4 bu1 au2 cu5 bu4 bu6 cu2 cu1 bu2 au
原创
发布博客 2021.08.10 ·
1777 阅读 ·
1 点赞 ·
2 评论 ·
13 收藏

Spark(四):Spark整合Hive

首先在Hive中建好表 加载好数据create table t_user(id int,name string,age int)row format delimited fields terminated by '\t';load data local inpath '/opt/user.log' into table t_user;在命令行访问HiveSpark 要接管 Hive 需要把 hive-site.xml copy 到spark/conf/目录下• 把 Mysql 的驱
原创
发布博客 2021.08.10 ·
211 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark(三): Spark SQL | DataFrame、DataSet、RDD转换 | SQL练习

文章目录Spark SQL一、Spark SQL概述1.什么是DataFrame2.什么是DataSet二、Spark SQL编程1.DataFrame1.1 创建DataFrame1.2 SQL风格语法 [重点]1.3 DSL风格语法1.4 RDD转换为DataFrame1.5 DataFrame转换为RDD2.DataSet2.1 创建DataSet2.2 RDD转换为DataSet2.3 DataSet转换为RDD3.DataFrame和DataSet的互操作3.1 DataFrame转换为Dat.
原创
发布博客 2021.08.10 ·
290 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

大数据开发超高频面试题!大厂面试必看!包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、数仓等

大数据开发面试题包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、数仓等高频面试题。数据来自原博主爬虫获取!Hadoop一、HDFS文件写入和读取过程可灵活回答 :1)HDFS读写原理(流程)2)HDFS上传下载流程3)讲讲(介绍下)HDFS4)HDFS存储机制回答这个问题之前,我们先来看下机架感知 机制,也就是HDFS上副本存储结点的选择。Hadoop3.x副本结点选择:由上图可知,第一个副本在Client所处的节点上。如
原创
发布博客 2021.08.10 ·
1778 阅读 ·
7 点赞 ·
0 评论 ·
33 收藏

大数据面试(二):Kafka面试题

面试题 01 什么是消息队列?消息队列就是用于当两个系统之间或者两个模块之间实现消息传递时,基于队列机制实现数据缓存的中间件面试题 02 消息队列有什么好处?•实现解耦,将高耦合转换为低耦合•通过异步并发,提高性能,并实现最终一致性面试题03、Kafka是什么?•Kafka是一个基于订阅发布模式的高性能、高吞吐的实时消息队列系统面试题04、Kafka在大数据中用于什么场景下?•用于实时架构中,实现将实时数据采集的数据进行实时存储,供于SparkStreaming或者Flink等工具实现实时.
原创
发布博客 2021.08.08 ·
562 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

大数据面试(一):Hive面试题

面试题01、 请说下Hive和数据库的区别Hive 和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,3)执行延迟Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。4)数据规模Hive支持很大规模的数据计算;数.
原创
发布博客 2021.08.08 ·
724 阅读 ·
2 点赞 ·
4 评论 ·
2 收藏

Spark(二):Spark的RDD

Spark(二):Spark的RDDSpark 程序,一般都包含一个Driver Program用于运行main函数,在该函数中执行着各种各样的并行操作。其中在Spark中有重要的概念RDD。该RDD是一个带有分区的分布式数据集,将数据分布存储在Spark集群的各个节点。当对RDD做任何操作,该操作都是并行的。RDD特点RDD Represents an immutable, partitioned collection of elements that can be operated on in
原创
发布博客 2021.08.08 ·
412 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Spark的Driver节点和Executor节点

1.驱动器节点(Driver)Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操作和行动操作代码的执行。如果你是用spark shell,那么当你启动 Spark shell的时候,系统后台自启了一个 Spark 驱动器程序,就是在Spark shell 中预加载的一个叫作 sc 的 SparkContext 对象。如果驱动器程序终止,那么Spark 应用也就结束了。Driver在spark作业执行
转载
发布博客 2021.08.08 ·
1488 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

Spark(一):基础简介安装和入门

Spark 基础一、Spark的介绍1.定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。2.Spark VS MapReduceSpark的诞生仅仅是为了替换早期的Hadoop的MapReduce计算引擎。Spark并没有存储解决方案,在Spark的架构中,底层存储方案依然延续Hadooop的HDFS/Hbase.由于Hadoop的MapReduce是大数据时代出现的第一类大数据分析工具,因为出现比较早仅仅为了满足大数据计算的刚性需求(能够做到对大数据的计算,并且可以保证在一
原创
发布博客 2021.08.04 ·
303 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

scala的高阶函数(算子)

scala的高阶函数(算子)scala简介1.Scala是一门多范式的静态类型编程语言,Scala支持【面向对象】和【函数式编程】2.Scala源代码(.scala)会被编译成java字节码(.class),然后运行在JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接Scala匿名函数知识补充:1.不需要写def 函数名2.不需要写返回类型,使用类型推导3.= 变成 =>4. 如果有多行则使用{}包括,否则建议省略 //普通的函数 def test1(v
原创
发布博客 2021.08.04 ·
688 阅读 ·
4 点赞 ·
0 评论 ·
11 收藏

开窗函数(分析函数)使用详解

开窗函数简介开窗函数:在开窗函数出现之前存在着很多用 SQL 语句很难解决的问题,很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题,在 2003 年 ISO SQL 标准加入了开窗函数,开窗函数的使用使得这些经典的难题可以被轻松的解决。目前在 MSSQLServer、Oracle、DB2 等主流数据库中都提供了对开窗函数的支持,MySQL8.0支持。 5.7 --> 8.0开窗函数简介:与聚合函数一样,开窗函数也是对行集组进行聚合计算,但是它不像普通聚合函数那样每组只返回一个
原创
发布博客 2021.08.01 ·
12403 阅读 ·
18 点赞 ·
6 评论 ·
114 收藏

hdfs的checkpoint及namenode故障恢复

Hdfs中 nameNode的持久化相关# 1. HDFS接受客户端的文件操作后。# 2. 先将操作的命令 以日志的方式记录到editslog中。# 3. 然后再将指令对应的文件元数据的修改操作,修改内存中的元数据信息。# 4. SNN定期负责将editslog中的文件合并到fsimage中。Hdfs的checkPoint机制SecondaryNameNode向NameNode发起合并请求NameNode将当前的Editslog文件保存改名edits,并新建EditsLog继续持久
原创
发布博客 2021.08.01 ·
690 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏
加载更多