speop-CSDN博客

原创 TASK06【Datawhale 组队学习】开源RAG项目学习

这里以该项目 project/qa_chain/model_to_llm.py 代码为例，在 project/llm/ 的目录文件夹下分别定义了星火spark，智谱glm，文心llm等开源模型api调用的封装，并在 project/qa_chain/model_to_llm.py 文件中导入了这些模块，可以根据用户传入的模型名字进行调用 llm。在对知识库文本进行分割和向量化后，就需要定义一个向量数据库用来存放文档片段和对应的向量表示了，在向量数据库中，数据被表示为向量形式，每个向量代表一个数据项。

2025-05-26 01:11:32 981

原创 TASK05【Datawhale 组队学习】系统评估与优化

或者。

2025-05-23 22:29:03 929

原创 TASK04【Datawhale 组队学习】构建RAG应用

langchain可以便捷地调用大模型，并将其结合在以langchain为基础框架搭建的个人应用中。

2025-05-21 23:26:55 659

原创 TASK03【Datawhale 组队学习】搭建向量知识库

它与传统的基于关系模型的数据库不同，它主要关注的是向量数据的特性和相似性。单个文档的长度往往会超过模型支持的上下文，导致检索得到的知识太长超出模型的处理能力，因此，在构建向量知识库的过程中，我们往往需要对文档进行分割，将单个文档按长度或者按固定的规则分割成若干个 chunk，然后将每个。词向量实际上是将单词转化为固定的静态的向量，虽然可以在一定程度上捕捉并表达文本中的语义信息，但忽略了单词在不同语境中的意思会受到影响这一现实。词向量背后的主要想理念是相似或相关的对象在向量空间中的距离应该很近。

2025-05-18 22:49:59 789

原创 TASK02【datawhale组队学习】coze-ai-assistant 第三章智能体

智能体（Agent）:能够自主操作、作出决策的实体。设计目的是让它能够感知其环境，并根据感知到的信息作出反应；能够在其所处的环境中执行任务，并达到预定的目标。可能是实际的物理世界，也可能是数字世界，如虚拟环境或软件应用中。智能体不仅能够准确回答问题，还能随着使用逐渐变得更聪明和高效。Agent 和 LLM 在功能和应用场景上有明显的互补关系。Agent = LLM + 记忆 +规划技能 + 工具使用。可能是文本信息，也可能是语音、图片、视频等多模态信息。LLM则专注于自然语言的理解和生成。

2025-05-16 00:53:14 260

原创 TASK02【Datawhale 组队学习】使用 LLM API 开发应用

在以下的样例中，我们先给了一个 {<学生>:<圣贤>} 对话样例，然后要求模型用同样的隐喻风格回答关于“孝顺”的问题，可以看到 LLM 回答的风格和示例里<圣贤>的文言文式回复风格是十分一致的。提示词注入:用户输入的文本可能包含与你的预设 Prompt 相冲突的内容，如果不加分隔，这些输入就可能“注入”并操纵语言模型，轻则导致模型产生毫无关联的不正确的输出，严重的话可能造成应用的安全风险。的 Prompt 能够提供更丰富的上下文和细节，让模型可以更准确地把握所需的操作和响应方式，给出更符合预期的回复。

2025-05-15 22:42:29 916

原创【datawhale组队学习笔记TASK01】AI春训营 AI+生命科学

公网地址:v1。

2025-05-15 16:34:05 1030

原创【datawhale组队学习】coze-ai-assistant TASK01

通过扣子开发的 AI 应用有明确的输入和输出，可以根据既定的业务逻辑和流程完成一系列简单或复杂的任务，例如 AI 搜索、翻译工具、饮食记录等。工作流具备了：大量的重复性任务（如内容创作、编辑、发布）和固定的业务流程（如策划、创作、审核、发布）。的 AI 项目，它通过对话方式接收用户的输入，由大模型自动调用插件或工作流等方式执行用户指定的业务流程，并生成最终的回复。教程：Coze / 扣子（飞书文档）10. 教程：Coze / 扣子。4万字教程-COZE/扣子与智能体入门（飞书文档）

2025-05-13 20:33:05 1200

原创【datawhale 组队学习】task01 第一章LLM介绍

时间安排如下国外的知名 LLM 有 GPT、LLaMA、Gemini、Claude 和 Grok 等国内的有 DeepSeek、通义千问、豆包、Kimi、文心一言、GLM 等。涌现能力：尽管这些大型语言模型与小型语言模型（例如 3.3 亿参数的 BERT 和 15 亿参数的 GPT-2）使用相似的架构和预训练任务，但它们展现出截然不同的能力，尤其在解决复杂任务时表现出了惊人的潜力，这被称为“涌现能力”GPT-3 可以通过学习上下文来解决少样本任务，而 GPT-2 在这方面表现较差。

2025-05-13 18:59:57 1148

原创【datawhale学习】AI办公实践与应用o

输出要求。

2025-05-11 15:57:41 780

原创【datawhaleAI春训营】帖子互动量预测

对于一条原创博文而言,转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度，也是对博文进行分发控制的重要参考指标。本届赛题的任务就是根据抽样用户的原创博文在发表一天后的转发、评论、赞总数，建立博文的互动模型，并预测用户后续博文在发表一天后的互动情况。1.2f.2f。

2025-05-05 23:59:18 181

原创【datawhaleAI春训营】楼道图像分类

没有看清楚教程。一开始选择了第一种cpu方式运行，发现不行。然后使用了方式二可以运行图像分类是计算机视觉中最基础的任务之一。它的目标是从输入的图像中判断出图像的类别（在这个赛题中，是判断场景是“楼道”还是“非楼道”）。这种任务相对简单，容易理解和实现，是入门计算机视觉的绝佳起点。数据集的特点如下：多样性：图片内容丰富，包含楼道、街道、室内其他区域等。复杂性：楼道场景中可能存在各种消防隐患，如堆积物、电动车、飞线充电等。标注信息(也是我们要分类预测的结果) ：每张图片都有标注信息，说明其场景类别（楼

2025-05-05 22:53:46 724

原创【datawhaleAI春训营】老人点餐推荐

接下来也请小伙伴们尝试将任务三的后半部分使用代码实现。这里给出参考方法。这里的思路是使用llamaindex框架，通过语义相似性匹配excel中对应的数据进行匹配。目前A榜给出的txt，可以将处理方式简单变换实现。这也是RAG实现的思路方案。当然，如果你不满足目前的方法可以学学上分点拨思路历程。# 1. 安装依赖"""读取 Excel，并构建向量索引。每行拼成一个字符串 Document。"""docs = []# 将每列:值拼成一段文本text = "；".join(f"

2025-05-05 21:47:23 756

原创【datawhale学习笔记】AI春训营 AI+新能源

我根据下图有以下猜测对于以上猜测我们需要观察更多的数据予以验证，在这期间也会产生更多的想法。

2025-04-19 22:11:19 458

原创【datawhaleAI春训营第一期笔记】AI+航空安全

1.输入:过去2个时刻117个通道2.目标:未来1个时刻117个通道3.结果:自回归生成未来12小时预报4.提交:截取30个通道的中国区域将全球气象预测转换为结构化回归问题，核心挑战：5. 高维度时空数据：2个历史时刻 × 117变量 × 181纬度 × 360经度 → 约千万原始特征6. 长预测序列：需预测未来12个时间步（72小时）的30个目标变量7. 空间依赖性：相邻格点的气象状态高度相关1）原始数据2）时空特征工程3）分层预测架构4）模型训练。

2025-04-18 21:24:00 670

原创 linux一些指令

而在升级模式下，不管系统中是否有较旧的版本，rpm 命令都会安装指定的软件包。.txt’ | xargs cp -av --target-directory=/home/backup/ --parents 从一个目录查找并复制所有以 ‘.txt’ 结尾的文件到另一个目录。mkisofs -J -allow-leading-dots -R -V “Label CD” -iso-level 4 -o ./cd.iso data_cd 创建一个目录的iso镜像文件。

2025-04-13 02:21:44 815

原创【数据结构笔记】王道外部排序打卡表

若顺序二叉树从数组下标1开始存储结点，则：●结点 i 的父结点编号为 i/2●结点 i 的左孩子编号为 i2●结点 i 的右孩子编号为 i2+1若顺序二叉树从数组下标0开始存储结点，则：●结点 i 的父结点编号为 [(i+1)/2] - 1●结点 i 的左孩子编号为 [(i+1)2] - 1 = 2i + 1●结点 i 的右孩子编号为 [(i+1)i + 2堆排序最终要生成升序数组：建立大根堆堆排序最终要生成降序数组：建立小根堆。

2025-04-13 02:21:09 306

原创【笔记】计算机网络CSMA 湖科大每日一题（不全

在下图所示的分组交换网中，各链路的频率带宽为8kHz，采用QAM-32调制技术，在无噪声的情况下，主机A给主机B发送一个大小为800B的文件，分组大小为100B，其中分组头大小为20B，则在不考虑分组拆装时间和信号传播时延的情况下，从A发送开始到B接收完为止，需要的时间至少是()。某一时刻，在接收方，下一个期望收到的分组的序号为5，则在发送方的发送窗口中可能出现的序号组合有()假设主机A是100Base-T以太网中的某个主机，主机A发送某个帧时遭遇了多次碰撞，在第12次碰撞后，可能的最长退避时间是()。

2025-04-13 02:20:55 925

原创【Datawhale AI春训营】TASK01

(2,1,22,2)->(2,22,2)，如果是(2,3,1,3)则不进行操作。例如，如果 output_core 的形状是 (30, 46, 71)，那么 unsqueeze(0) 后的形状将变为 (1, 30, 46, 71)。例如，如果输入张量的形状是 (1, 117, 181, 360)，那么 squeeze(0) 后的形状将变为 (117, 181, 360)。expand(1, 12, -1, -1, -1)在第1维度复制12次，最终形状变为(1, 12, 30, 46, 71)

2025-04-13 02:18:34 788

原创【数据结构】拓扑排序——课程表(深度优先搜索)

对于一个节点 u，如果它的所有相邻节点都已经搜索完成，那么在搜索回溯到 u 的时候，u 本身也会变成一个已经搜索完成的节点。这里的「相邻节点」指的是从 u 出发通过一条有向边可以到达的所有节点。我们可以将深度优先搜索的流程与拓扑排序的求解联系起来，用一个栈来存储所有已经搜索完成的节点。

2024-10-22 21:14:08 432

原创【数据结构笔记】408二叉树、堆、AVL、图、拓扑排序

堆堆是一种特殊的完全二叉树。在堆中，每个节点的值都满足特定的顺序关系。具体分为：大根堆：任何一个父节点的值都大于或等于它的子节点的值。小根堆：任何一个父节点的值都小于或等于它的子节点的值。堆通常用于实现排序算法，如堆排序。二叉排序树（二叉查找树、二叉搜索树）二叉排序树是一种具有特定性质的二叉树。在二叉排序树中，左子树上所有节点的值均小于根节点的值，右子树上所有节点的值均大于根节点的值。左右子树也分别为二叉排序树。二叉排序树主要用于实现动态查找操作。

2024-10-21 21:15:25 1012

原创【王道视频笔记】红黑树的定义和性质

*回答:**内部结点数最多的情况–h层黑结点，每一层黑结点下面都铺满一层红结点。结点的黑高bh–从某结点出发(不含该结点)到达任一叶结点的路径上黑结点总数。**思考:**根节点黑高为h的红黑树，内部结点数(关键字)至少有多少个?**思考:**根节点黑高为h的红黑树，内部结点数(关键字)至多有多少个?**回答:**内部结点数最少的情况–总共h层黑结点的满树形态。**结论:**若根节点黑高为h，内部结点数(关键字)最多有。**结论:**若根节点黑高为h，内部结点数(关键字)最少有。

2024-10-11 12:33:00 624

原创【自用视频笔记】25计算机基础综合408大纲新增考点多处理机调度

25计算机基础综合。

2024-10-11 10:50:12 1452

原创【视频笔记】408新增知识点信号——里昂视频

可以看到，每次按下Ctrl+C，都会打印对应内容(实现自定义的功能而不是像原来一样终止进程)，而sigNum也证明Ctrl+C对应的信号值确实是2号(SIGINT)。【例】Linux下，用一个名为task_struct的结构体类型来描述PCB，包括很多字段，如进程的状态进程的标识、进程的优先级等。，本质上是向进程发送了一个编号为2的SIGINT信号，只不过这个信号是通过键盘输入的，然后经过操作系统处理后再发送给进程。的，如果进程对它们的子进程是否存在感兴趣，那么进程必须显式地捕获并处理该信号。

2024-10-10 16:58:27 1473

原创【自用】王道强化存储系统串讲总结

基本分页存储管理（一般考二级页表）请求分页存储管理方向一：虚拟地址转换为物理地址的过程。方向二：通过物理地址访问cache的过程。

2024-10-10 15:37:15 1015 1

原创【笔记】数据结构

（1）算法思想：设要查找的数组中未出现的最小正整数为K。采用类似计数排序的思想，分配一个数组B[n]，用来标记A中是否出现了1~n之间的正整数。否则，根据计数排序的思想将B[A[i] - 1]置为1。标记完毕，遍历数组B，查找第一个值为0的元素，其下标+1即为目标元素K；给定一个含n（n≥1）个整数的数组，请设计一个在时间上尽可能高效的算法，找出数组中未出现的最小正整数。例如，数组{-5, 3, 2, 3}中未出现的最小正整数是1；数组{1, 2, 3}中未出现的最小正整数是4。

2024-10-06 22:20:47 366

原创【自用】王道文件管理强化笔记

系统运行过程中，如果要访问某个文件，则首先要找到这个文件对应的目录项，从目录项中找到文件的起始块号，再根据起始块号查FAT表，从而确认文件的后序那些块存放在哪里。：包含一些重要的文件系统管理信息，如：魔数（是用来告诉操作系统这个文件的类型的，魔数magic number是计算机(或者说是BIOS)用来判断此设备是否包含引导程序的），磁盘转速，磁道数，扇区数。”.“表示当前目录，”…表中每一项都包含了文件的各种信息，如文件的inode节点指针（指向内存中已读入的inode信息）、打开该文件的进程数等。

2024-10-06 18:47:17 841

原创 408笔记|随笔记录|自用|2|TLB与cache

参考@啊哈哈哈哈哈韩一、线性结构（一）顺序查找· 特点：按序依次查找。· 要求：顺序表和链表都适用，有序表和无序表都适用。· 平均查找长度（查找成功）：ASL成功=(n+1)/2· 最大查找长度（查找失败）：ASL失败=n+1（二）折半查找· 特点：查找区域不断二分，查找树是一棵二叉排序树。· 要求：有序顺序表。· 平均查找长度（查找成功）：ASL成功=log2n1−1log2n1−1· 最大查找长度（查找失败）：ASL失败=树高=l。

2024-10-05 11:23:21 1486

原创【笔记】I/O总结王道强化视频笔记

由于中断源4的优先级仍然高于当前正在处理的中断源2（但低于已经决定先响应的2，这里指的是在开启中断后的即时检测），且此时没有其他更高优先级的中断请求，因此CPU会立即转到中断源4的中断服务程序去执行。当CPU决定响应中断时，会执行一系列操作，包括关中断（以防止新的中断干扰当前中断处理）、保存断点（即保存下一条将要执行的指令的地址）和程序状态（如寄存器内容），然后识别中断源并跳转到相应的中断服务程序。在用户程序环境下，CPU才能够检测到中断源3发出的中断请求，并立即响应它，执行中断源3的中断服务程序。

2024-10-05 11:21:01 2003 2

大学生入学需要的信息检索能力.doc

空空如也