华..
码龄4年
关注
提问 私信
  • 博客:41,152
    社区:1
    41,153
    总访问量
  • 65
    原创
  • 811,918
    排名
  • 19
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2020-12-09
博客简介:

m0_53400772的博客

查看详细资料
个人成就
  • 获得16次点赞
  • 内容获得12次评论
  • 获得59次收藏
  • 代码片获得576次分享
创作历程
  • 65篇
    2023年
成就勋章
TA的专栏
  • MySql
    5篇
  • Java小白学习之路
    25篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Scala环境搭建及安装

访问Scala官网http://www.scala-lang.org/下载Scala编译器安装包,目前最新版本是3.1.3,但是目前大多数的框架都是用2.12.x编写开发的,Spark3.x使用的就是2.12.x,所以这里推荐2.12.x版本,下载scala-2.12.11.msi后点击下一步就可以了!打开idea后找到左上角得File --》settings --》plugins--》搜索scala后install后重启idea即可。在src--》main--》创建一个scala包。
原创
发布博客 2023.06.13 ·
8211 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

kafka面试题

消息系统都致力于让consumer以最大的速率最快速的消费消息,但不幸的是,push模式下,当broker推送的速率远大于consumer消费的速率时,consumer恐怕就要崩溃了。也就是说,如果你给 log.dirs 参数新增了一个新的磁盘,新的分区目录肯定是先在这个新的磁盘上创建直到这个新的磁盘目录拥有的分区目录不是最少为止。kafka中的每个 partition 中的消息在写入时都是有序的(不断追加),而且单独一个 partition只能由一个消费者去消费,可以在里面保证消息的顺序性。
原创
发布博客 2023.06.11 ·
1585 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase安装及简介

HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾是大数据领域中 Key-Value 数据结构存储最常用的数据库方案。
原创
发布博客 2023.06.09 ·
1369 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka运维监控:Kafka-Eagle安装

kafka自身并没有集成监控管理系统,因此对kafka的监控管理比较不便,好在有大量的第三方监控管理系统来使用,常见的有:Kafka Manager(雅虎开源的Kafka集群管理器)还有JMX接口自开发监控管理系统。
原创
发布博客 2023.06.08 ·
1326 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

kafka事务(伪事务)

Kafka的事务控制原理主要原理: 开始事务-->发送一个ControlBatch消息(事务开始)提交事务-->发送一个ControlBatch消息(事务提交)放弃事务-->发送一个ControlBatch消息(事务终止)开启事务的必须配置参数(我不支持数据得回滚,但是我能做到,一荣俱荣,一损俱损)
原创
发布博客 2023.06.07 ·
838 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka系统的架构

Kafka 中的索引文件以稀疏索引( sparse index )的方式构造消息的索引,它并不保证每个消息在索引文件中都有对应的索引;每当写入一定量(由 broker 端参数 log.index.interval.bytes 指定,默认值为 4096 ,即 4KB )的消息时,偏移量索引文件和时间戳索引文件分别增加一个偏移量索引项和时间戳索引项,增大或减小 log.index.interval.bytes的值,对应地可以缩小或增加索引项的密度;1,append time),[4,5,6,7]位保留;
原创
发布博客 2023.06.06 ·
987 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka练习

用hashset来实现很显然会出问题,如果数据量一直往上增长,会出现oom的问题,而且占用资源越来越多,影响电脑性能!方案二:将HashSet改成bitMap来计数,就很完美,大逻辑不变,小逻辑就是将HashMap改成bitMap。2.将每条数据添加一个字段来标识,如果这个用户的id是第一次出现,那么就标注1,否则就是0。需求:写一个生产者,不断的去生产用户行为数据,写入到kafka的一个topic中。需求二:判断来没来过的问题,可以用bitmap来搞,当然还可以用布隆过滤器来搞。
原创
发布博客 2023.06.05 ·
600 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka生产者与消费者api示例

consumer的消费位移提交方式:全自动定时提交到consumer_offsets半自动然后手动触发提交 consumer.commitSync();提交到consumer_offsets全手动写自己的代码去把消费位移保存到你自己的地方mysql/zk/redis/提交到自己所涉及的存储;初始化时也需要自己去从自定义存储中查询到消费位移。
原创
发布博客 2023.06.04 ·
1401 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

zookeeper的安装部署

1安装zookeeper集群。
原创
发布博客 2023.06.02 ·
178 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

redis--模拟lol英雄出场的TOPN | pubsub发布订阅频道

需求:实时的返回每个英雄出场的频次。
原创
发布博客 2023.06.01 ·
114 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用redis模拟手机验证码发送及消费者与生产者案例

规定一个手机号一天只能请求三次验证码,且每次请求的验证码只有一分钟就会过期。
原创
发布博客 2023.05.31 ·
102 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SQL综合案例之电商漏斗转化分析,pv,uv及

注册转化漏斗 : 启动APP --> APP注册页面--->注册结果 -->提交订单-->支付成功。秒杀活动选购转化漏斗: 点击秒杀活动-->参加活动--->参与秒杀-->秒杀成功--->成功支付。搜购转化漏斗 : 搜索商品--> 点击商品--->加入购物车-->提交订单-->支付成功。1. 先将用户的事件序列,按照漏斗模型定义的条件进行过滤,留下满足条件的事件。不同的业务场景有不同的业务路径 : 有先后顺序, 事件可以出现多次。3. 将拼接好的字符串,匹配漏斗模型抽象出来的正则表达式。
原创
发布博客 2023.05.30 ·
1232 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

Doris窗口函数经典案例:遇到标志划分组

【代码】Doris窗口函数经典案例:遇到标志划分组。
原创
发布博客 2023.05.29 ·
746 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Doris----Rollup表分析及案例实现

ROLLUP 在多维分析中是“上卷”的意思,即将数据按某种指定的粒度。
原创
发布博客 2023.05.28 ·
1380 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Doris---索引

因为如果创建在低基数的列上,比如 “性别” 列,则每个Block几乎都会包含所有取值,导致BloomFilter索引失去意义。虽然还没有超过36个字节,但是已经遇到了一个varchar字段,它自动截断,不会再往后面取了。在doris中是以tablet为粒度创建的,给每一个tablet创建一个布隆过滤器索引。示例2:以下表中我们定义了:age,user_name,message作为表的key。BloomFilter是在无法利用前缀索引的查询场景中,来加快查询速度的。时,可以极大的加快查询速度。
原创
发布博客 2023.05.27 ·
2020 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Doris-----Aggregate 聚合模型及案例实现

表中的列按照是否设置了 AggregationType,分为 Key(维度列)和 Value(指标列),没有设置 AggregationType 的称为 Key,设置了 AggregationType 的称为 Value。当我们导入数据时,对于 Key 列相同的行会聚合成一行,而 Value 列会按照设置的AggregationType 进行聚合。查看数据的时候发现,数据只剩下6条了,就是因为再key相同的时候,将后面的结果聚合了。SUM:求和,多行的 Value 进行累加。MAX:保留最大值。
原创
发布博客 2023.05.26 ·
2276 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Doris---数据表设计

Partition 支持通过 VALUES LESS THAN (...) 仅指定上界,系统会将前一个分区的上界作为该分区的下界,生成一个左闭右开的区间。此时,当多个点查询并发时,这些查询有较大的概率分别触发不同的分桶扫描,各个查询之间的IO影响较小(尤其当不同桶分布在不同磁盘上时),所以这种方式适合高并发的点查询场景。当不使用 Partition 建表时,系统会自动生成一个和表名同名的,全值范围的 Partition。一个表的 Tablet 数量,在不考虑扩容的情况下,推荐略多于整个集群的磁盘数量。
原创
发布博客 2023.05.25 ·
1108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive---拉链表设计与实现

拉链表的设计是将更新的数据进行状态记录,没有发生更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态,通过时间进行标记每个状态的生命周期,查询时,根据需求可以获取指定时间范围状态的数据,默认用9999-12-31等最大值来表示最新状态。假如在1号已经在hive中创建了表并拉取了数据,但是在2号时MySQL中新增2条用户注册数据,并且有1条用户数据发生更新.由于每天都会有用户注册,产生新的用户信息,那么每天都需要将MySQL中的用户数据同步到Hive数据仓库中.2号再创建一张表拉取所有数据。
原创
发布博客 2023.05.23 ·
1424 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

HQL函数--打地鼠游戏及WordCount案例分析及实现

m int -- 是否命中 1命中 0 未命中。hit int , -- 第几次打地鼠。uid int , -- 用户名。查询用户最大连续命中次数。
原创
发布博客 2023.05.22 ·
519 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Git的安装与连接

如果你还没有远程仓库,可以在GitHub或GitLab等网站上创建一个新的仓库。创建完成后,将仓库地址复制下来,然后使用上述命令将本地仓库与远程仓库连接。这个命令将本地的master分支推送到远程仓库,并将其设置为默认分支。如果你使用的是其他分支,可以将"master"替换为你的分支名。如果你使用的是其他分支,可以将"master"替换为你的分支名。接下来,我们需要连接到远程仓库。除了推送代码,我们还可以从远程仓库拉取代码。将"<remote repository URL>"替换为你的远程仓库地址。
原创
发布博客 2023.05.21 ·
1247 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多