自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 强化学习(长篇)一窥

强化学习核心概念与算法概述 强化学习(RL)是智能体通过与环境交互学习最优策略以最大化累计奖励的机器学习方法。本文介绍了RL的基本框架和关键概念: 核心要素:智能体在未知环境中通过状态(s)、动作(a)、奖励(r)和转移概率(P)进行交互,目标是学习最优策略π和价值函数V/Q。 马尔可夫决策过程:RL问题通常建模为MDP,具有马尔可夫性质(未来仅依赖当前状态)。 关键概念:包括模型(环境描述)、策略(行为函数)、价值函数(未来奖励预测)和贝尔曼方程(价值函数分解)。 算法分类:分为基于模型(依赖环境模型)和

2026-02-02 16:33:49 625

原创 Transformer快速入门

每一个预训练模型继承自下列三个基类。推荐使用AutoClass API来加载模型和预处理器,因为它能根据预训练权重和配置文件的名称或路径,自动为每个任务和机器学习框架推断出合适的架构。使用方法从Hub将权重和配置文件加载到模型和预处理器类中。使用tokenizer对文本进行分词,并返回PyTorch张量。如果可用,将模型移动到加速设备(如GPU)上以加快推理速度。现在,模型已经准备好进行推理或训练了!在推理过程中,将分词后的输入传递给generate()方法来生成文本。然后使用。

2025-11-20 21:22:02 801

原创 RAG学习记录

RAG(检索增强生成)方法将检索系统与生成模型结合,动态访问外部知识库以提高回答准确性。其流程包括意图理解、知识检索整合等环节。评价指标分为四类:召回指标(上下文召回率、相关性、MAP等)、排序指标(MRR、NDCG)、生成指标(答案真实性、相关性、准确性)以及整体评价。这些指标综合评估检索质量、排序效果和生成回答的可靠性,其中NDCG考虑了文档排序位置,MAP衡量检索排序性能,生成指标则重点关注回答依据的真实性和相关性。

2025-11-04 00:51:59 735

原创 意图识别的重要性

意图识别是对话系统的核心技术,旨在从用户输入中判断其目的。它能有效引导对话流程、提升交流效率并优化用户体验。单轮意图识别主要有5种方案:基于规则匹配、向量检索、深度学习模型、大语言模型(采用零样本或微调方法)以及多种方案的融合技术。多轮意图识别则需结合对话上下文,通过语义分割和大模型优化来处理意图转变问题。实际应用中往往需要综合运用多种技术,平衡准确率、业务需求和实施效率。

2025-11-04 00:51:27 404

原创 Python数据分析 --- Numpy库

本文系统介绍了NumPy数组的核心操作,主要涵盖以下内容:1)数组创建方法,包括从列表/元组转换、使用arange/linspace生成序列、随机数生成以及文件读写;2)数组属性统计,包括尺寸、最值、分位数等计算;3)形状变换操作,如reshape、转置、升维降维等;4)数组分解与组合,包括切片索引、拼接拆分等;5)条件筛选与抽样;6)矩阵运算与广播机制;7)通用函数(ufunc)及其方法;8)NumPy常量与数据类型。文章提供了Python代码示例,重点讲解了数组操作的维度处理、索引切片等核心概念,并附有

2025-11-02 00:05:29 910

原创 Python数据分析 --- Pandas库

本文介绍了Pandas数据处理的核心内容,主要包括:1)数据读取写入方法,支持csv/excel/txt格式;2)Series和DataFrame数据结构及常用操作;3)索引访问的loc/iloc方法;4)多级索引的构建与管理;5)数据分组聚合操作;6)表连接方法。重点涵盖了数据选择、转换、聚合等核心功能,并详细说明了参数配置和使用场景。全文系统性地总结了Pandas在数据清洗和分析中的关键技术点。

2025-11-02 00:05:02 897

原创 Linux 107 --- 编程环境配置

本文介绍了Ubuntu系统环境配置的完整指南。主要内容包括:1) 配置清华、阿里云等国内软件镜像源;2) 安装C/C++开发环境(GCC、GDB等)及解决LLDB模块缺失问题;3) Conda环境管理技巧与国内源配置;4) pip镜像源设置方法;5) btop资源监控工具的安装与UTF-8环境配置;6) CUDA环境检查与故障排查方法,包括NVML初始化失败和动态链接库问题的解决方案。涵盖从基础软件源配置到深度学习环境搭建的全流程,为开发者提供一站式Ubuntu环境配置参考。

2025-11-02 00:04:32 999

原创 Latex 学习札记

本文简要介绍了LaTeX的基础知识和常用操作。主要内容包括:1) LaTeX命令行基础,如查看版本、路径切换等;2) 文档结构和环境设置,包括文档类、宏包使用和中文排版方法;3) 字符处理规则和数学公式排版技巧;4) 实用工具推荐,如表格生成、公式识别等;5) 图片、表格插入方法及页边距设置。文中还提供了CTeX宏集使用、多行公式对齐、分段函数实现等具体解决方案,并附有多个实用资源链接,适合LaTeX初学者快速掌握基础操作。

2025-11-02 00:04:09 774

原创 Python面试汇总

那么如果list实现了__hash__()就必须是基于内容的,但是list是可变的,所以当list变化之后就再也无法取出原来的value了,所以对list不支持__hash__()函数。key:一个只有一个参数的函数,这个函数会被用在序列里的每一个元素上,所产生的结果将是排序算法依赖的对比关键字,默认值为None。sorted() 函数会新建一个列表作为返回值,返回的列表中的元素是原列表中的元素经过排序后的元素,原列表元素顺序不变。“猴子补丁”就是指,在函数或对象已经定义之后,再去改变它们的行为。

2025-11-02 00:03:30 745

原创 Linux 106 --- 常用工具

Vimrc 配置文件" ===== Vim 编码设置 =====" 终端编码方案 & 缓冲区 buffer 的字符编码 & 自动检测文件编码时的候选列表" ===== Python 文件自动缩进 & 格式设置 =====" tabstop : 制表符宽度等于 4 个空格 & softtabstop: 按下 Tab 键时,插入 的空格个数" shiftwidth: 自动缩进时,缩进的空格个数 & expandtab : 将制表符转化为空格。

2025-11-01 21:21:00 619

原创 Linux 105 --- 如何配置SSH远程服务

然后下载指定 commit 的 vscode-sever,最后解压得到vscode-server-linux-x64。将vscode-server-linux-x64文件夹的内容复制到对于 commit 文件夹下。开启ssh后,回到主机,仍无法连接到ssh,解决办法:修改sshd_config配置文件。重启ssh服务,使得配置生效[docker内部操作]例如,ssh-add -K id_rsa。修改sshd_config配置文件:将。然后更改密码,出现“密码更新成功”文件夹,清除当前文件夹所有文件。

2025-11-01 21:15:53 527

原创 Linux 004 --- Docker容器操作

将镜像保存为tar文件。实时跟踪某个容器的输出。查看最近多少行再跟踪。

2025-11-01 21:12:29 293

原创 Linux 003 --- 文件、目录操作

如果目录非空,则删除失败。一般来说,我们会使用 rm 命令来删除。:列出当前目录下的所有项,其中,-l 参数表示详细模式。:删除一个空目录,即 remove directory。表示列出一个目录本身,而非目录下的子项。:创建目录,即make directory。:移动文件或目录 (重命名),即 move。:档案打包,即 tape archive。参数,可以将路径的层次目录全部创建。: 删除文件或者目录,即 remove。:删除abc目录,和子项一并删除;:列出文件和文件夹,即list。

2025-11-01 20:57:27 679

原创 Linux 002 --- 常用命令速查

【代码】Linux 002 --- 常用命令速查。

2025-11-01 19:04:11 190

原创 Excel指南札记

本文摘要:文章系统介绍了Excel表格制作与数据处理的实用技巧,分为五个章节。第一章讲解表格易读性原则,包括对齐方式、格式设置和颜色区分;第二章介绍工作表管理、隐藏功能替代方案及条件格式应用;第三章列举11个便捷函数;第四章详述引用方式、追踪功能和数据验证;第五章汇总快捷键操作、复制粘贴技巧和自动填充功能。全文提供可视化排版建议和高效数据处理方法,帮助用户提升Excel使用效率与表格专业性。

2025-08-13 22:06:17 1032

原创 Git 使用常用命令记录

Git基础配置与常用操作摘要 本文介绍了Git的基础配置和常用操作。配置部分包括设置用户名邮箱、默认分支名、合并策略、编辑器和网络代理等初始化设置。远程仓库部分讲解了SSH密钥配置和连接测试方法。 常用Git命令包括: 仓库初始化git init和状态查看git status 提交相关操作git add、git commit和git commit --amend 版本控制git reset、git restore和git diff 文件操作git rm和git show 分支管理git branch、git

2025-08-13 20:37:55 1003

原创 Linux Docker 容器配置与命令速查

本文介绍了Docker容器环境下Ubuntu系统的配置流程,主要包括三个部分:1)配置清华、阿里云等国内镜像源加速软件包下载;2)详细说明SSH服务的安装配置过程,包括权限设置、配置文件修改和服务启动脚本编写;3)提供VSCode远程连接问题的解决方案和Mac系统SSH免密登录配置方法。文中包含具体命令示例和常见问题解决方案,如"Missing privilege separation directory"错误处理、VSCode服务器文件替换等,为开发者提供了完整的容器环境配置参考。

2025-08-13 20:21:13 1082

原创 Linux 001 --- 服务器文件传输

本文介绍了三种在无外网环境下本地与远程主机间传输大文件的方法:1)rsync支持压缩、增量同步和断点续传,命令示例为rsync -avzP xx.tar user@host:/path/;2)scp提供简单复制功能,使用scp xx.tar user@host:/path/;3)通过Python启动HTTP服务(python -m http.server 8888)后,可用wget或aria2c多线程下载(aria2c -x 16 -s 16 http://ip:8888/xx.tar)。三种方法各具优势,

2025-08-13 17:11:25 203

原创 多模态论文阅读总结

本文系统梳理了多模态任务类型,包括图文检索、视觉蕴含、视觉问答等,并重点分析了三种前沿多模态模型:ALBEF、VLMO和BLIP系列。ALBEF采用对比学习、匹配和掩码建模三个目标函数,通过动量模型生成伪标签来优化训练;VLMO创新性地提出MoME结构,共享自注意力模块但区分模态特定的前馈网络;BLIP通过Captioner-Filter机制提升数据质量,BLIP2则冻结预训练模型参数,仅训练轻量级Q-Former实现视觉-语言特征对齐。这些方法通过不同的架构设计和训练策略,有效解决了多模态学习中的模态对齐

2025-08-12 15:47:03 913

原创 大模型强化学习总结

本文介绍了如何将强化学习应用于基础语言模型以提升其推理能力。首先定义了关键概念:策略(语言模型生成token的概率分布)、状态(当前文本前缀)、动作(下一个token)和轨迹(状态-动作序列)。在数学推理等任务中,奖励通常仅在最终步骤赋值(1表示正确,0错误)。策略梯度算法(如REINFORCE)通过最大化期望回报来优化模型参数,利用轨迹回报调整动作概率。进一步引入Actor-Critic算法,通过状态价值函数和动作价值函数评估状态和动作的长期价值,其中状态价值函数是动作价值函数在策略下的期望。这些方法共同

2025-08-12 15:46:16 1204

原创 CLIP学习总结

作者使用Prompt Template的方法,作者将ImageNet的一千个类,通过 Prompt Template(A photo of a {label})变为一千个句子,通过预训练的文本编码器抽取文本的特征,一张图片通过图像编码器获得图像的特征,然后与文本特征使用余弦相似度计算相似性。CLIP的输入是图片和与之配对的文本对,如果有N张图片,经过图像编码器,获得N个图像特征向量,同样地,文本经过文本编码器得到N个文本特征向量,这样组成了一个N×N的特征矩阵。个样本为负样本),对角线外的元素是负样本。

2025-08-02 19:33:32 1210

原创 KL散度与交叉熵

变量的主要特征是不确定性,即发生的概率。事件发生的概率越小,不确定性越大,信息量也越大。不确定性:缺乏对变量数值的真实了解,可被描述为以可能数值的范围和可能性为特征的概率密度函。在机器学习中,交叉熵常用作分类问题的损失函数,但是神经网络的输出不一定是概率分布。交叉熵比信源熵多出的部分,即为冗余信息量。上文提到的冗余信息量,即称为KL散度(相对熵)。在实际计算中,为保障数值稳定性,使用下面的公式。),他们联合发生的信息量等于各自信息量之和,即。熵定义为信源输出的平均信息量,即信息量的期望。

2025-08-02 15:45:59 704

原创 文本与字节

字节(Byte) 是一串二进制序列。字节序列就是连续的多个字节

2023-11-19 11:59:08 376

原创 Python---贪心的狗熊

【问题描述】我们都听说过狗熊掰棒子的故事。现在有一只狗熊拿着可以装个玉米的口袋去掰棒子。如果新掰到的玉米比口袋中最上面的玉米重,则用新掰到的玉米去替换口袋中最上面的玉米;否则,只要口袋未满,则将新掰到的玉米装入。求最终袋中玉米总重量。【输入形式】第一行输入口袋可以装载的玉米数目;之后m行输入m个正整数,表示待的玉米重量值,m=0表示结束。【输出形式】一行一个整数,表示最终袋中玉米总重量。【样例输入】36410364720【样例输出】23****【样例说明】****袋子深

2022-03-19 10:51:16 1563

原创 Python环境配置

Python环境配置Python编辑器安装如何将Python添加到环境变量1. **找到Python环境变量的位置**2. 添加Python路径到环境变量新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Python编辑器安

2021-11-06 19:06:38 2026

原创 微分方程

微分方程边值问题 -防热服把偏微分方程变为标准形式研究:物理学、统计学、生物学假设从多到少,合理(针对探究对象),以斜上抛运动为例,先有基础模型,再进行改进。马尔萨斯人口模型:差分方程—>微分方程 但应用比较少。改进:考虑剩余环境容纳量,logistic模型再改进…负密度依赖:密度越大,增长越慢弦振动、热传导方程微分方程的解法1.可分离变量的2.一阶线性常微分3.二阶常系数线性齐次4.二阶常系数线性非齐次微分方程5.可降阶的(3)偏微分方程求解1.变量分离法(变量独立

2021-03-30 10:14:15 1437

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除