The博宇
码龄4年
关注
提问 私信
  • 博客:42,440
    42,440
    总访问量
  • 39
    原创
  • 34,785
    排名
  • 658
    粉丝
  • 73
    铁粉

个人简介:要加油,要努力,要不负众望!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2021-03-20
博客简介:

m0_56341622的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    404
    当月
    18
个人成就
  • 获得654次点赞
  • 内容获得0次评论
  • 获得443次收藏
  • 代码片获得1,386次分享
创作历程
  • 39篇
    2024年
成就勋章
TA的专栏
  • 案例
    4篇
  • 大数据面试题
    17篇
  • BigData问题
    6篇
  • 软件安装
    5篇
兴趣领域 设置
  • 人工智能
    数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

大数据常用的算法--常用的分类算法

决策树,作为一种简单易用的数据分类算法,在机器学习领域具有广泛的应用。它通过一系列逻辑分支规则将原始数据划分到不同的目标类别,从而实现对数据的分类和预测。决策树的核心思想是将数据集根据特征值进行划分,直到满足一定的停止条件为止。在这个过程中,决策树不断地生长,直到成为一个完整的分类模型。
原创
发布博客 2024.12.13 ·
1277 阅读 ·
21 点赞 ·
0 评论 ·
13 收藏

机器学习:监督学习、无监督学习

定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。简单理解:可以把监督学习理解为我们教机器如何做事情。​定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。
原创
发布博客 2024.12.13 ·
1364 阅读 ·
19 点赞 ·
0 评论 ·
14 收藏

Spark常问面试题---项目总结

数据经flum的抽取,将各个埋点的日志数据传入hive(进行处理sparksql处理)作为ods层,然后对ods层的数据进行清洗脱敏等然后当作tmp临时表,然后将tmp表进行合并生成dwd公共数据明细层,然后以dwd为基础,按天进行轻度汇总,粒度是一行信息代表的行为,例如一天下单的次数,以dws数据层为基础,按主题进行汇总,一个项目可以分为很多的主题,进行汇总,例如某个用户从注册开始到现在下单次数等,ads为各种统计表提供数据。我在这个项目主要清洗的式日志数据,日志数据传过来的json格式。
原创
发布博客 2024.12.03 ·
1593 阅读 ·
37 点赞 ·
0 评论 ·
16 收藏

Kafka 数据倾斜原因、影响与权威解决方案

在大数据处理领域,Kafka 作为一款高性能的分布式消息队列系统,被广泛应用于数据传输、实时流处理等场景。然而,在使用 Kafka 的过程中,数据倾斜问题可能会悄然出现,影响系统的性能和数据处理的准确性。本文将深入探讨 Kafka 数据倾斜的概念、产生原因、带来的问题以及相应的解决策略,帮助读者更好地应对这一挑战。
原创
发布博客 2024.11.25 ·
842 阅读 ·
25 点赞 ·
0 评论 ·
10 收藏

Flink在Linux系统上的安装与入门

这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。
原创
发布博客 2024.11.25 ·
1697 阅读 ·
27 点赞 ·
0 评论 ·
19 收藏

真实网络安全面试场景题

网络安全真实场景面试题
原创
发布博客 2024.11.23 ·
552 阅读 ·
4 点赞 ·
0 评论 ·
9 收藏

大数据面试题--day01

HashMap是基于哈希表的Map接口的非同步实现。HashMap底层就是一个数组结构,数组中的每一项又是一个链表。数组+链表结构,新建一个HashMap的时候,就会初始化一个数组。Entry就是数组中的元素,每个Entry其实就是一个key-value的键值对,它持有一个指向下一个元素的引用,这就构成了链表,HashMap底层将key-value当成一个整体来处理,这个整体就是一个Entry对象。
原创
发布博客 2024.11.21 ·
398 阅读 ·
5 点赞 ·
0 评论 ·
3 收藏

java创建线程的4种方式

在Java中,创建线程有多种方式,每种方式都有其适用场景和优缺点。
原创
发布博客 2024.11.18 ·
1682 阅读 ·
39 点赞 ·
0 评论 ·
17 收藏

大数据面试题--kafka夺命连环问(后10问)

前15问博客链接:大数据面试题--kafka夺命连环问-CSDN博客16、kafka是如何做到高效读写?Kafka 实现高效读写主要依赖于以下几个关键机制:(一)分区技术与并行处理Kafka 作为分布式集群,采用分区技术将主题划分为多个分区。每个分区可分布在不同节点,生产者能并行向各分区写入数据,消费者组内多个消费者也可同时从不同分区读取数据,极大提升了系统的并行度和吞吐量。例如,一个主题有多个分区,不同的生产者线程或进程可针对不同分区独立发送消息,而多个消费者可并行处理不同分区的数据
原创
发布博客 2024.11.12 ·
1162 阅读 ·
18 点赞 ·
0 评论 ·
17 收藏

大数据面试题--kafka夺命连环问(前15问)

kafka面试题
原创
发布博客 2024.11.09 ·
1537 阅读 ·
17 点赞 ·
0 评论 ·
28 收藏

kafka 在Linux上的安装部署

通过以上步骤,我们在 Linux 系统上成功安装和部署了 Kafka。在实际应用中,可以根据具体的业务需求进一步配置和优化 Kafka,如设置更复杂的安全机制、调整性能参数等。希望本教程对大家有所帮助,让大家能够顺利开启 Kafka 之旅。
原创
发布博客 2024.11.09 ·
2611 阅读 ·
32 点赞 ·
0 评论 ·
11 收藏

Hive面试题-- hive中查询用户连续三天登录记录的实现与解析

在数据分析中,经常会遇到需要分析用户行为连续性的问题,比如查询用户连续三天登录的情况。本文将基于 Hive 来解决这个问题,并详细解释每一步的代码。
原创
发布博客 2024.11.07 ·
696 阅读 ·
8 点赞 ·
0 评论 ·
4 收藏

Hive面试题-- 查询各类型专利 top10 申请人及专利申请数

在数据处理中,尤其是涉及到专利信息等复杂数据时,Hive 是一个强大的工具。本文将详细介绍如何使用 Hive 查询语句来获取各类型专利 top10 申请人以及他们对应的专利申请数,以下是基于给定的t_patent_detail表结构的分析和查询步骤。
原创
发布博客 2024.11.07 ·
563 阅读 ·
13 点赞 ·
0 评论 ·
3 收藏

网易SQL面试题

- 举例如下:-- 输入1001 陈奕迅 十年 202410111002 陈奕迅 十年 202410111003 陈奕迅 十年 202410111004 陈奕迅 十年 202410111001 陈奕迅 富士山下 202410111002 陈奕迅 好久不见 202410111003 陈奕迅 好久不见 20241011。
原创
发布博客 2024.11.06 ·
614 阅读 ·
6 点赞 ·
0 评论 ·
9 收藏

mysql如何批量删除海量数据

一个表有1亿6000万的数据,有一个自增ID。最大值就是1亿6000万,需要删除大于250万以后的数据,有什么办法可以快速删除?看到mysql文档有一种解决方案:Use删除大表的多行数据时,会超出innod block table size的限制,最小化的减少锁表的时间的方案是:1、选择不需要删除的数据,并把它们存在一张相同结构的空表里2、重命名原始表,并给新表命名为原始表的原始表名3、删掉原始表。
原创
发布博客 2024.11.06 ·
1070 阅读 ·
24 点赞 ·
0 评论 ·
16 收藏

大数据面试题-group by | order by| distribute by| sort by| cluser by | partition by 的区别

这个题目在大数据的面试中比较常见,属于所谓的八股文,考察面试者的基本功。
原创
发布博客 2024.11.04 ·
842 阅读 ·
26 点赞 ·
0 评论 ·
10 收藏

Spark中的常见算子

Spark中的常见算子---触发算子、转换算子。哪些算子能触发shuffle过程
原创
发布博客 2024.11.01 ·
1882 阅读 ·
23 点赞 ·
0 评论 ·
23 收藏

SQL面试题

这时候我们就需要判断每个用户的逾期天数是否小于所有配置的逾期天数,如果是则记为1,这时候会出现一个用户对应多个1,我们要取对应配置逾期天数最小的那一条,怎么办?看到多张表,先进行JOIN,但是一眼看去好像只能用逾期天数进行关联,可以又无法直接关联,那么就笛卡尔积(考虑到配置表很小)按照uid进行分组,配置逾期天数进行排序,对标志位进行求和,最后取开窗结果为1的行记录即可。
原创
发布博客 2024.10.31 ·
315 阅读 ·
9 点赞 ·
0 评论 ·
5 收藏

hadoop面试题

12、大数据是由结构化和非结构化数据组成的。8、hadoop包含的四大模块分别是: Hadoop common 、( HDFS ) 、( Mapreduce )、( yarn )。分而治之:就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果。13、大数据关键技术两大核心技术是:( 分布式存储或(HDFS) )和( 分布式处理或(MapReduce) )。
原创
发布博客 2024.10.31 ·
981 阅读 ·
12 点赞 ·
0 评论 ·
8 收藏

python--学生管理系统案列

python--学生管理系统案列
原创
发布博客 2024.10.22 ·
418 阅读 ·
7 点赞 ·
0 评论 ·
3 收藏
加载更多