文文鑫
码龄5年
关注
提问 私信
  • 博客:108,925
    社区:1
    108,926
    总访问量
  • 197
    原创
  • 37,490
    排名
  • 108
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2019-12-24
博客简介:

文文x的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    444
    当月
    2
个人成就
  • 获得195次点赞
  • 内容获得29次评论
  • 获得244次收藏
  • 代码片获得936次分享
创作历程
  • 15篇
    2024年
  • 16篇
    2023年
  • 132篇
    2021年
  • 37篇
    2020年
成就勋章
TA的专栏
  • 大数据
  • Flink
    9篇
  • Hadoop
    10篇
  • Spark
    8篇
  • Scala
    26篇
  • Hive
    5篇
  • Hbase
    2篇
  • ClickHouse
    3篇
  • Doris
    1篇
  • Flume
    3篇
  • Kafka
    1篇
  • Sqoop
    1篇
  • 大数据面试
  • 大数据面试-Spark
    1篇
  • 大数据面试-Java
    1篇
  • 大数据面试-Hadoop
    1篇
  • 大数据面试-Hive
    1篇
  • 大数据面试-笔试
    1篇
  • 大数据面试-Scala
    1篇
  • 大数据面试-Zookeeper
    1篇
  • 大数据面试-数仓建模
    1篇
  • 数据仓库
  • Docker-新一代容器技术
    11篇
  • Redis-NoSQL
    36篇
  • MongoDB-NoSQL
    16篇
  • TiDB-NewSQL
    7篇
  • vue-前后端分离
    9篇
  • springboot
    18篇
  • Java
    8篇
  • Linux
    2篇
  • SpringCloud-微服务架构
    3篇
  • Python-数据挖掘+机器学习
    6篇
  • SSM-MVC分层
    7篇
  • 笔记
    14篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Clickhouse-复杂json数组解析

arrayJoin: 类似于explode ,将array中的element裂变为行。JSONExtractArrayRaw: 将JsonString 转换为Json。JSONExtractRaw: 抽取json中的key、value。
原创
发布博客 2024.10.16 ·
397 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

大数据面试-笔试

【代码】大数据面试-SQL。
原创
发布博客 2024.10.10 ·
504 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

大数据面试-数仓建模

说一下数仓建模每一层做了哪些事情?
原创
发布博客 2024.08.23 ·
423 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

大数据面试-Zookeeper

‌ZooKeeper的选举机制‌是基于Paxos算法的一种分布式选举算法,用于在ZooKeeper集群中选择一个节点作为Leader,负责处理客户端的写请求和协调其他节点。而在偶数个节点的集群中,当有一个节点故障时,剩余节点的数量不足以达到多数派原则,可能导致集群无法正常工作。在奇数个节点的集群中,存在一个节点拥有超过半数的支持,因此选举过程可以更容易达成一致。综上所述,ZooKeeper的选举机制确保了集群的高可用性和一致性,而奇数个节点的配置是推荐的最佳实践,因为它能提供更好的性能、容错性和一致性‌。
原创
发布博客 2024.08.23 ·
641 阅读 ·
4 点赞 ·
0 评论 ·
2 收藏

大数据面试-Hive

存储效率上:char即使字符串较短也占用完整的 n 个字符的存储空间,有可能浪费存储。使用varchar(10),则表示只占3个字节,10是最大值,当存储的字符小于10时,按照实际的长度存储。这就表示,存储字符串’abc’,使用char(10),表示存储的字符将占10个字节(包括7个空字符);char类型的长度是固定的,不足的部分用隐藏空格填充,varchar的长度是可变的。使用 char 类型来存储固定长度的字符串,以便于优化存储和查询效率。char类型的效率比varchar的效率稍高。
原创
发布博客 2024.06.21 ·
330 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

大数据面试-Scala

如果一个函数,访问到了它的外部(局部)变量的值,那么这个函数和他所处的环境,称为闭包。函数柯里化,其实就是将复杂的参数逻辑变得简单化,函数柯里化一定存在闭包。闭包在函数式编程中是一个重要的概念,广泛用于高阶函数、柯里化等技术中。函数柯里化:把一个参数列表的多个参数,变成多个参数列表;高阶函数:1)函数可以作为值进行传递。3)函数可以作为函数返回值返回。2)函数可以作为参数进行传递。
原创
发布博客 2024.06.21 ·
300 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

大数据面试-Hadoop

脑裂最简单的理解就是一山不容二虎,当Leader节点出现故障,系统开始改朝换代,当Follower 完成全部工作并且成为 Leader 后,原 Leader 又复活了(它的故障可能是暂时断开或系统暂时变慢,不能及时响应,但其NameNode 进程还在),并且由于某种原因它对应的 ZKFC 并没有把它设置为 Standby,所以原 Leader 还认为自己是 Leader,客户端向它发出的请求仍会响应,于是脑裂就发生了。但是,每条数据之间有交集,需要做聚合汇总,就必须有reduce 阶段。
原创
发布博客 2024.06.17 ·
409 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

Spark 收集常见面试题

内存计算:mapreduce在编程模型上,只有简单map和reduce,而且map阶段的所以数据都要写入到磁盘,导致磁盘io开销很大,速度也很慢,而spark是完全基于内存的计算框架,只有当内存溢出的时候,才会写入到磁盘,这减少了磁盘读写操作,提高了计算效率。在早期spark还没有出现的时候,是没人觉得mapreduce慢的,直到spark的出现,让众多大数据开发人员眼前一亮,经过统计,某些情况下,spark的处理效率要比mapreduce快100倍。所以在内存有限的情况下,不推荐使用。
原创
发布博客 2024.06.17 ·
821 阅读 ·
19 点赞 ·
0 评论 ·
6 收藏

Java 收集常见面试题

查询效率:通常情况下,Set在查询方面比List更高效,尤其是使用HashSet时,其contains方法的时间复杂度为O(1),而ArrayList的contains方法时间复杂度为O(n)。要从Set或List集合中查询出相关的数据,可以使用常见的集合操作方法,例如contains()方法。顺序性:Set不保证元素的顺序,而List保持元素的插入顺序。重复性:Set不允许存储重复的元素,而List允许。保持元素插入的顺序(即迭代时按照插入顺序)。没有顺序(即不保证元素的迭代顺序)。允许包含重复的元素。
原创
发布博客 2024.06.17 ·
220 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Doris Doris分区表-动态分区

动态分区是在 Doris 0.12 版本中引入的新功能。旨在对表级别的分区实现生命周期管理(TTL),减少用户的使用负担。目前实现了动态添加分区及动态删除分区的功能。动态分区只支持 Range 分区。
原创
发布博客 2024.04.16 ·
825 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏

Hbase Spark将Hive数据写入Hbase/Lindorm

【代码】Hbase Spark将Hive数据写入Hbase/Lindorm。
原创
发布博客 2024.04.09 ·
158 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

Hbase Hbase常用命令

【代码】Hbase Hbase常用命令。
原创
发布博客 2024.04.09 ·
121 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

大数据面试

对内部表的修改会将修改直接同步给元数据,而对外部表的表结构和分区进行修改,则需要修复(MSCK REPAIR TABLE table_name)。早期也是没有内部表和外部表的说法的,在传统的RDMS数据数据库领域中,如果想要对一个数据库表进行例如增删改查等操作,就需要在数据库引擎中规范建立对应的数据库表,并且把数据导入其中才可以操作。但是随着行业、大数据组件的不断发展,这种传统的玩法已经不能满足使用了,因此就提出了能不能通过外部表的形式与外界任何形式的数据建立连接。
原创
发布博客 2024.03.13 ·
656 阅读 ·
12 点赞 ·
0 评论 ·
13 收藏

Linux-screen

Screen 是在多个进程间多路复用一个物理终端的全屏窗口管理器,Screen 也叫会话,一个Screen 会话中可以有多个 Screen 窗口, 每个窗口类似于一个 SSH 连接。
原创
发布博客 2024.03.13 ·
403 阅读 ·
7 点赞 ·
0 评论 ·
7 收藏

Sqoop Hive分区表Export到Mysql

【代码】Sqoop Hive分区表Export到Mysql。
原创
发布博客 2024.01.25 ·
682 阅读 ·
8 点赞 ·
0 评论 ·
11 收藏

ClickHouse 新增字段

【代码】ClickHouse 新增。
原创
发布博客 2023.12.08 ·
1772 阅读 ·
9 点赞 ·
0 评论 ·
9 收藏

Flink Window中典型的增量聚合函数(ReduceFunction / AggregateFunction)

在Flink Window中定义了窗口分配器,我们只是知道了数据属于哪个窗口,可以将数据收集起来了;至于收集起来到底要做什么,其实还完全没有头绪,这也就是窗口函数所需要做的事情。所以在窗口分配器之后,我们还要再接上一个定义窗口如何进行计算的操作,这就是所谓的“窗口函数”(window functions)。窗口可以将数据收集起来,最基本的处理操作当然就是基于窗口内的数据进行聚合。我们可以每来一个数据就在之前结果上聚合一次,这就是“增量聚合”。
原创
发布博客 2023.12.08 ·
1082 阅读 ·
9 点赞 ·
0 评论 ·
7 收藏

Flink Flink数据写入Kafka

flink官方集成了通用的 Kafka 连接器,使用时需要根据生产环境的版本引入相应的依赖。通过socket模拟数据写入Flink之后,Flink将数据写入Kafka。
原创
发布博客 2023.12.06 ·
2423 阅读 ·
14 点赞 ·
0 评论 ·
16 收藏

Flink Flink中的合流

但我们知道一个DataStream中的数据只能有唯一的类型,所以连接得到的结果并不是DataStream,而是一个“连接流”。事实上内部仍保持各自的数据形式不变,彼此之间是相互独立的。要想得到新的DataStream,还需要进一步定义一个“同处理”(co-process)转换操作,用来说明对于不同来源、不同类型的数据,怎样分别进行处理转换、得到统一的输出类型。所以整体上来,两条流的连接就像是“一国两制”,两条流可以保持各自的数据类型、处理方式也可以不同,不过最终还是会统一到同一个DataStream中。
原创
发布博客 2023.11.28 ·
1058 阅读 ·
10 点赞 ·
0 评论 ·
10 收藏

Flink Flink中的分流

所谓“分流”,就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于一个DataStream,定义一些筛选条件,将符合条件的数据拣选出来放到对应的流里。
原创
发布博客 2023.11.24 ·
1436 阅读 ·
12 点赞 ·
0 评论 ·
9 收藏
加载更多