The博宇-CSDN博客

原创 DeepSeek-R1：通过强化学习激励大语言模型的推理能力

近年来，大语言模型（LLMs）正在经历快速的迭代和进化，并正在逼近通用人工智能（AGI）。最近，后训练已成为完整训练流程中的一个重要组成部分。研究表明，它可以提高推理任务的准确性，与社会价值观保持对齐，并适应用户偏好，同时相较于预训练所需的计算资源相对较少。在推理能力方面，OpenAI 的 o1 系列模型通过增加思维链推理过程的长度，首次引入了推理时扩展的方法。这种方法在数学、编程和科学推理等多种推理任务中，取得了显著的进步。然而，有效的测试时扩展仍然是社区面临的一个未解问题。

2025-02-28 14:50:59 1375

原创大数据常用的算法--常用的分类算法

决策树，作为一种简单易用的数据分类算法，在机器学习领域具有广泛的应用。它通过一系列逻辑分支规则将原始数据划分到不同的目标类别，从而实现对数据的分类和预测。决策树的核心思想是将数据集根据特征值进行划分，直到满足一定的停止条件为止。在这个过程中，决策树不断地生长，直到成为一个完整的分类模型。

2024-12-13 07:30:00 1867

原创机器学习：监督学习、无监督学习

定义：根据已有的数据集，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。在监督学习中训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。简单理解：可以把监督学习理解为我们教机器如何做事情。定义：我们不知道数据集中数据、特征之间的关系，而是要根据聚类或一定的模型得到数据之间的关系。

2024-12-13 00:04:09 3605

原创 Spark常问面试题---项目总结

数据经flum的抽取，将各个埋点的日志数据传入hive（进行处理sparksql处理）作为ods层，然后对ods层的数据进行清洗脱敏等然后当作tmp临时表，然后将tmp表进行合并生成dwd公共数据明细层，然后以dwd为基础，按天进行轻度汇总，粒度是一行信息代表的行为，例如一天下单的次数，以dws数据层为基础，按主题进行汇总，一个项目可以分为很多的主题，进行汇总，例如某个用户从注册开始到现在下单次数等，ads为各种统计表提供数据。我在这个项目主要清洗的式日志数据，日志数据传过来的json格式。

2024-12-03 20:49:19 1854

原创 Kafka 数据倾斜原因、影响与权威解决方案

在大数据处理领域，Kafka 作为一款高性能的分布式消息队列系统，被广泛应用于数据传输、实时流处理等场景。然而，在使用 Kafka 的过程中，数据倾斜问题可能会悄然出现，影响系统的性能和数据处理的准确性。本文将深入探讨 Kafka 数据倾斜的概念、产生原因、带来的问题以及相应的解决策略，帮助读者更好地应对这一挑战。

2024-11-25 20:48:03 1342

原创 Flink在Linux系统上的安装与入门

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。

2024-11-25 20:38:01 2831

原创真实网络安全面试场景题

网络安全真实场景面试题

2024-11-23 14:45:52 707

原创大数据面试题--day01

HashMap是基于哈希表的Map接口的非同步实现。HashMap底层就是一个数组结构，数组中的每一项又是一个链表。数组+链表结构，新建一个HashMap的时候，就会初始化一个数组。Entry就是数组中的元素，每个Entry其实就是一个key-value的键值对，它持有一个指向下一个元素的引用，这就构成了链表，HashMap底层将key-value当成一个整体来处理，这个整体就是一个Entry对象。

2024-11-21 20:55:42 475

原创 java创建线程的4种方式

在Java中，创建线程有多种方式，每种方式都有其适用场景和优缺点。

2024-11-18 20:17:55 3194 1

原创大数据面试题--kafka夺命连环问（后10问）

前15问博客链接：大数据面试题--kafka夺命连环问-CSDN博客16、kafka是如何做到高效读写？Kafka 实现高效读写主要依赖于以下几个关键机制：（一）分区技术与并行处理Kafka 作为分布式集群，采用分区技术将主题划分为多个分区。每个分区可分布在不同节点，生产者能并行向各分区写入数据，消费者组内多个消费者也可同时从不同分区读取数据，极大提升了系统的并行度和吞吐量。例如，一个主题有多个分区，不同的生产者线程或进程可针对不同分区独立发送消息，而多个消费者可并行处理不同分区的数据

2024-11-12 08:53:51 1405

原创大数据面试题--kafka夺命连环问（前15问）

kafka面试题

2024-11-09 16:38:24 1814

原创 kafka 在Linux上的安装部署

通过以上步骤，我们在 Linux 系统上成功安装和部署了 Kafka。在实际应用中，可以根据具体的业务需求进一步配置和优化 Kafka，如设置更复杂的安全机制、调整性能参数等。希望本教程对大家有所帮助，让大家能够顺利开启 Kafka 之旅。

2024-11-09 09:04:06 5121 2

原创 Hive面试题-- hive中查询用户连续三天登录记录的实现与解析

在数据分析中，经常会遇到需要分析用户行为连续性的问题，比如查询用户连续三天登录的情况。本文将基于 Hive 来解决这个问题，并详细解释每一步的代码。

2024-11-07 20:55:56 995

原创 Hive面试题-- 查询各类型专利 top10 申请人及专利申请数

在数据处理中，尤其是涉及到专利信息等复杂数据时，Hive 是一个强大的工具。本文将详细介绍如何使用 Hive 查询语句来获取各类型专利 top10 申请人以及他们对应的专利申请数，以下是基于给定的t_patent_detail表结构的分析和查询步骤。

2024-11-07 20:35:14 882

原创网易SQL面试题

- 举例如下：-- 输入1001 陈奕迅十年 202410111002 陈奕迅十年 202410111003 陈奕迅十年 202410111004 陈奕迅十年 202410111001 陈奕迅富士山下 202410111002 陈奕迅好久不见 202410111003 陈奕迅好久不见 20241011。

2024-11-06 20:45:23 758

原创 mysql如何批量删除海量数据

一个表有1亿6000万的数据，有一个自增ID。最大值就是1亿6000万，需要删除大于250万以后的数据，有什么办法可以快速删除？看到mysql文档有一种解决方案：Use删除大表的多行数据时，会超出innod block table size的限制，最小化的减少锁表的时间的方案是：1、选择不需要删除的数据，并把它们存在一张相同结构的空表里2、重命名原始表，并给新表命名为原始表的原始表名3、删掉原始表。

2024-11-06 20:40:28 1236

原创大数据面试题-group by | order by| distribute by| sort by| cluser by | partition by 的区别

这个题目在大数据的面试中比较常见，属于所谓的八股文，考察面试者的基本功。

2024-11-04 16:32:37 1038

原创 Spark中的常见算子

Spark中的常见算子---触发算子、转换算子。哪些算子能触发shuffle过程

2024-11-01 09:35:04 2306

原创 SQL面试题

这时候我们就需要判断每个用户的逾期天数是否小于所有配置的逾期天数，如果是则记为1，这时候会出现一个用户对应多个1，我们要取对应配置逾期天数最小的那一条，怎么办？看到多张表，先进行JOIN，但是一眼看去好像只能用逾期天数进行关联，可以又无法直接关联，那么就笛卡尔积（考虑到配置表很小）按照uid进行分组，配置逾期天数进行排序，对标志位进行求和，最后取开窗结果为1的行记录即可。

2024-10-31 22:44:25 405

原创 hadoop面试题

12、大数据是由结构化和非结构化数据组成的。8、hadoop包含的四大模块分别是： Hadoop common 、（ HDFS ）、（ Mapreduce ）、（ yarn ）。分而治之:就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果。13、大数据关键技术两大核心技术是：（分布式存储或（HDFS））和（分布式处理或（MapReduce））。

2024-10-31 11:02:47 1245

原创 python--学生管理系统案列

python--学生管理系统案列

2024-10-22 12:17:45 513

原创 python——扑克牌案列

python——扑克牌案列

2024-10-22 12:09:42 800

原创 finebi面试题精选

bi工程师也称为一个不可缺少的大数据分支出来的职业，下面精选了20道finebi面试题，希望对小伙伴们有所帮助。

2024-10-13 22:46:00 1522

原创 Scala面试题大全~基础题(15题)

模式匹配是 Scala 的一个特性。它的工作原理与其他语言中的 switch case 相同，不同的是scala中支持更加丰富的匹配类型，如常量，变量，类型，样本类，集合等，同时支持更加丰富的逻辑操作如嵌套匹配和模式守卫。具有相同类名的Object对象，并且类和Object在同一个源文件中的Object称为类的伴生对象。println(circleArea) // 输出结果: 28.274333882308138。

2024-10-10 13:23:57 2302

原创面试都喜欢问 Redis，为什么？因为他快吗？

通过了解 Redis 为什么这么快，相信我们已经很熟悉 Redis 的作用了，那么我们 Redis 的学习才刚刚开始，使用、精通、钻研将是我们不断的话题。

2024-10-09 20:22:12 1409

原创 sqoop 在进行数据抽取是报错

关于导入数据时有一个关于日期类型的数据的警告：sqoop 在进行数据抽取是，即 mysql 导入 hive 时mysql 中关于时间的数据类型是hive 的表是 sqoop 创建的，它的时间类型是所以有一个警告。

2024-09-24 20:33:40 618

原创 HIVE报错：To turn this off set hive.exec.dynamic.partition.mode=nonstrict

这样设置之后，你就可以执行动态分区的插入操作了。这些设置告诉 Hive 允许所有的分区列都是动态生成的，而不是必须至少有一个静态分区列。要解决这个问题，你可以在执行插入操作之前，通过设置 Hive 的配置参数来允许所有的分区列都是动态的。如果你在执行这些操作时仍然遇到问题，可能需要检查其他相关的配置参数，例如控制每个节点上可以创建的最大动态分区数。，这意味着你的 Hive 配置处于严格模式，它要求至少有一个分区列是静态的。这些参数的设置可能会影响动态分区的功能和性能。

2024-09-23 17:10:21 1076

原创 HIVE报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.Map RedTask

这些方法可以根据不同的情况尝试，以解决 Hive 执行错误的问题。如果问题依然存在，建议查看 Hive 日志获取更详细的错误信息。这些方法可以根据不同的情况尝试，以解决 Hive 执行错误的问题。：如果是因为内存溢出，可以在运行 SQL 命令前设置 MapReduce 的内存参数。：确保插入数据的类型与目标表的列类型匹配，并且表结构是一致的。：如果是因为分区数量太多，可以设置动态分区的相关参数。：如果集群资源不足，可以考虑增加资源或者优化资源分配。：如果是因为版本不兼容，建议查看兼容表确认。

2024-09-23 17:07:53 6676

原创项目环境搭建--数仓

项目搭建前的软件安装

2024-09-18 12:11:51 1330

原创 Linux--安装hive

分为三种：内嵌模式、本地模式、远程模式。

2024-09-18 11:30:34 1207

原创 Linux--安装MySQL8.0

z 代表的意思是使用到了gzip这个软件，一般用于解压 .gz 压缩包，假如没有，就不要使用 z。

2024-09-18 11:07:10 588

原创 Redis五种数据类型

Redis有五种数据类型：String（字符串）、List（列表）、Hash（散列）、Set（集合）、sortedSet（有序集合）判断某个键是否存在type <key>查看键的类型del <key>删除某个键为键值设置过期时间，单位秒ttl <key>查看还有多久过期,-1表示永不过期,-2表示已过期dbsize查看当前数据库中key的数量flushdb清空当前库flushall通杀全部库。

2024-09-14 11:03:13 1851

原创缓存之王--Redis

Redis是用C语言开发的一个开源的高性能键值对（key-value）数据库。它通过提供多种键值数据类型来适应不同场景下的存储需求，目前为止Redis支持的键值数据类型如下：- 字符串类型- 散列类型- 列表类型- 集合类型- 有序集合类型。

2024-09-12 20:16:17 1086

原创大数据面试题———SQL

这种方法在逻辑上更简单，但它可能在性能上不如窗口函数，特别是在处理大量数据时，因为自连接需要对数据进行多次扫描。：这种方法是最直观和最常用的，特别是在需要处理大量数据时，窗口函数可以有效地利用数据库的优化和并行处理能力。1、题目17：车辆每天上传N条数据，要求获得每日最后一条数据，请用至少三种方式写出来，并说明三种方式的区别。来为每个车辆每天的数据分配一个序号，其中序号为1的即为每天的最后一条数据。时间戳，然后通过子查询将这些时间戳与原表连接，以获取对应的记录。为每个分组内的记录分配一个唯一的序号。

2024-09-10 20:06:28 502

原创 Scala----统一类型

在Scala中，所有的值都有类型，包括数值和函数。下图阐述了类型层次结构的一个子集。

2024-09-10 13:38:21 475

原创大数据真实面试题---SQL

大数据真实SQL面试题解析

2024-09-10 11:50:52 1274

原创 Scala安装使用教程

Scala是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行在Java虚拟机上，并兼容现有的Java程序。Scala源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库。函数编程范式更适合用于Map/Reduce和大数据模型，着眼于函数本身，函数范式逻辑清晰、简单，非常适合用于处理基于不变数据的批量处理工作。像Spark,kafka等都是采用Scala开发的，所以学习好大数据，掌握scala是必要的。

2024-09-10 07:00:00 2135

原创搭建单机版dolphinscheduler时，连接mysql数据库报错

查阅资料后发现问题原因是：从特定IP地址连接到MySQL服务器时，由于多次连接失败，该IP地址已被MySQL服务器阻止。如果应用程序中存在连接泄漏，即创建了数据库连接但没有正确关闭，这可能导致过多的连接错误。：查看MySQL的错误日志文件，以确定是什么导致了多次连接错误。的值可能会降低服务器的安全性，因为它允许更多的失败连接尝试。的值被超过，这是一个MySQL配置参数，用于限制来自同一IP地址的失败连接尝试次数。这将设置新的阈值，允许更多的连接错误而不阻塞IP地址。这可以在MySQL配置文件（通常是。

2024-09-09 13:25:20 1259

原创大数据工具集--DataX

java 解决的是高并发问题，大数据解决的是海量数据存储与分析问题。大数据的各种工具集可以方便我们对海量数据进行存储与分析。

2024-09-08 22:57:28 1567

原创 DataX实战之MongoDB导入数据到mysql时报错

把maven版本改为apache-maven-3.6.1，删除之前加载的datax 源码，重新加载datax 源码就可以成功打包jar包。

2024-09-07 15:16:57 716 1

scala3-3.2.1.zip

空空如也