- 博客(167)
- 资源 (12)
- 收藏
- 关注
原创 PyCharm通过跳板机连接隔离内网服务器
本文介绍了一种在严格网络安全环境下通过跳板机的SSH隧道实现PyCharm远程连接隔离内网GPU服务器的方法
2025-12-18 19:53:49
484
原创 【论文阅读】DSPy-based neural-symbolic pipeline to enhance spatial reasoning in LLMs
它既包含对距离、角度、坐标等精确信息的定量推理,也涉及对方位(如“左边”“北方”)、拓扑(如“内部”“分离”)和邻近关系(如“附近”“远离”)等符号关系的定性推理。通过弥合这些范式,神经符号系统不仅提升了可靠性与可解释性,也为可扩展、可信且与人类对齐的智能奠定了基础,代表了实现未来。)稳健的、面向领域的知识表示,实现快速可靠的符号推理,并辅以解析、接地和求解失败的全面错误处理。,在文本空间推理任务上验证。在不同模型与推理深度下的泛化性与实用性,为复杂推理任务提供了一条自动化、低门槛的神经符号落地路径。
2025-10-11 21:22:20
1056
原创 【论文阅读】Debating with More Persuasive LLMs Leads to More Truthful Answers
在我们的设置中,强与弱的区别仅体现在信息获取上。对于人类实验,我们没有运行专家裁判基线,而是使用Pang等人(2022),他们报告了在HARD子集上,可以访问文本的注释者达到了89%的准确率。我们在一个类比场景中研究该问题:较强的模型(专家)拥有回答问题所需的全部信息,而较弱的模型(非专家)虽具备同等基础能力,却缺乏关键信息。与Radhakrishnan(2023)类似,如果引用直接匹配文本的一部分,则该工具生成已验证的<v_quote>,否则,它生成未验证的<u_quote>标签(参见附录D.2)。
2025-10-10 22:29:34
1168
原创 【论文阅读】Improving Factuality and Reasoning in Language Models through Multiagent Debate
尽管辩论过程需要多个模型实例和轮次,成本更高,但它能得出显著更优的答案,并可用于生成额外的训练数据,从而形成一个模型自我增强的循环。我们相信,让模块化的语言智能体协同合作解决不同难题的视角,将是一个富有前景的研究方向,这与通过更大计算量提升性能的方法是正交的。然后,每个模型实例阅读并批评其他模型的回答,并基于这些内容更新自己的答案。最后,我们发现,辩论的作用不仅仅是在一个模型群体中放大正确答案——我们还发现了许多案例,其中所有模型最初都给出了错误预测,但随着辩论的进行,最终得出了正确答案(见图。
2025-09-30 21:36:41
1010
原创 【论文阅读】Casual Prompting: Debiasing Large Language Model Prompting Based on Front-Door Adjustment
翻译了论文Causal Prompting: Debiasing Large Language Model Prompting Based on Front-Door Adjustment,并提供部分的个人见解。
2025-09-29 22:21:26
746
原创 论文阅读DeCoT: Debiasing Chain-of-Thought for Knowledge-Intensive Tasks in LLMs via Causal Intervention
Yuan et al., 2023b),通过改变工具变量E(外部知识)的值,估计C与A之间的真实因果关系。理想情况下,查询Q作为碰撞变量(collider),可以缓解E与Z之间的虚假相关性,前提是E与Z在因果上是独立的(Pearl et al., 2000)。为了理解知识密集型任务中的因果关系,我们引入结构因果模型(Structural Causal Model, SCM)(Pearl et al., 2000),并将LLM的内部知识理解(记为变量Z)识别为一个混杂因子(confounder)。
2025-09-25 22:56:45
791
原创 Conda环境迁移(电脑A迁移至电脑B)
但问题就在于,在新的环境上,我没有办法安装相同版本的库,例如,在旧服务器上,我可以正常地安装xformers==0.0.31,但是新的却没法安装,因为它需要torch的版本大于等于2.7.0,这仅仅是其中的一个依赖,其它的库,例如vllm,也由于xformers这个库不匹配,导致它也没法很好地安装。因此,如果你的新服务器能够很好地配置环境,是没有迁移的这个必要的,可以通过yml文件导出已有的Conda环境库的列表,然后利用这个yml文件联网重新安装。提供的脚本,用于修复环境中的硬编码路径。
2025-09-21 11:56:16
691
1
原创 简单理解重参数化(Re-parameterization)
重参数化是一项重要的技术,用于训练包含随机(stochastic)组件的神经网络,尤其是深度生成模型。这里KL(q‖p)的作用是正则化,能够让encoder输出的分布q(z|x)不要离标准正态p(z)太远,否则模型会随便乱编码。在这个新的表示中,μ和σ成为神经网络的确定性输出,而所有的随机性都来自于外部注入的、与模型参数无关的变量ϵ。z=μ+σ⋅ϵ,其中ϵ∼N(0,1)
2025-09-14 22:39:32
659
原创 【论文阅读】Uncertainty Modeling for Out-of-Distribution Generalization (ICLR 2022)
主流深度学习方法遵循经验风险最小化(Empirical Risk Minimization) 原则(Vapnik, 1999),虽在训练域表现良好,但未显式建模测试时统计差异的不确定性,导致模型过拟合训练域,对测试时的统计变化高度敏感。现有方法(如MixStyle、pAdaIN)通过样本间线性操作(交换或插值)生成新统计量,但受限于参考样本的选择,其生成的变异方向与强度有限,难以覆盖真实域偏移的多样性。具体而言,我们假设每个特征统计量服从一个多元高斯分布,以建模各种潜在的偏移情况。
2025-09-12 21:53:17
1120
原创 【论文阅读】LightThinker: Thinking Step-by-Step Compression (EMNLP 2025)
大语言模型(LLMs)在复杂推理任务中展现出卓越性能,但其效率受到生成冗长token所带来的巨大内存和计算开销的严重制约。本文提出了一种新颖的方法——LightThinker,使LLMs能够在推理过程中动态压缩中间思维步骤。受人类认知过程启发,LightThinker将冗长的推理链压缩为紧凑的表示,并丢弃原始推理链,从而显著减少上下文窗口中存储的token数量。该方法通过以下方式实现:构建训练数据以指导模型学习何时以及如何压缩;将隐藏状态映射为少量“gist token”;并设计专门的注意力掩码。
2025-09-03 20:15:18
1366
原创 【论文阅读】Capture the Key in Reasoning to Enhance CoT Distillation Generalization (ACL 2025)
随着大语言模型(LLMs)规模不断扩大并展现出强大的链式思维(CoT)推理能力,实际部署中受限于计算资源,研究者们开始尝试将这些能力蒸馏到更紧凑的小型语言模型(SLMs)中。我们发现,CoT推理中大部分内容其实只是简单的推理形式,其中仅有约4.7%的关键推理步骤真正对最终结论产生决定性影响。然而,以往的蒸馏方法通常只让学生模型在老师模型生成的正确CoT数据上进行监督微调,导致学生模型难以学到这些关键步骤,反而倾向于模仿老师的推理形式,从而在推理过程中出现错误或遗漏。
2025-09-01 12:25:38
1181
原创 【DeepResearch调研】基于知识图谱与数据合成的大语言模型幻觉缓解研究前沿
【声明:本博客由Google Gemini 2.5 Flash结合DeepResearch生成(2025-08-23)】基于知识图谱与数据合成的大语言模型幻觉缓解研究前沿1引言:大语言模型幻觉问题的挑战与研究背景大语言模型(LLM)以其卓越的语言理解与生成能力,在多个领域展现出变革性潜力。然而,其固有的“幻觉”问题,即模型生成看似合理但与事实不符或与给定上下文矛盾的内容,严重制约了其在医疗、法律、金融等关键应用场景的可靠性与可信度1。
2025-08-24 18:53:57
989
原创 【DeepResearch调研】大模型事实推理方法综述:从思想链到多智能体协作
【声明:本博客由Google Gemini 2.5 Flash结合DeepResearch生成(2025-08-23)】大模型事实推理方法综述:从思想链到多智能体协作1引言与背景1.1大模型幻觉问题与事实推理的必要性大语言模型(LLM)已在自然语言处理的多个领域展现出卓越的能力,包括文本生成、对话交互和复杂任务处理1。然而,这些模型的普及应用正面临一个核心挑战,即其内在的“幻觉”(hallucination)问题1。
2025-08-24 18:11:19
1130
原创 【DeepResearch调研】大模型多跳推理能力的深度解析:瓶颈、去偏研究与前沿进展
【声明:本博客由Google Gemini 2.5 Flash结合DeepResearch生成(2025-08-23)】大模型多跳推理能力深度解析:瓶颈、去偏研究与前沿进展摘要多跳推理是评估大语言模型(LLM)深层认知能力的核心任务,要求模型整合多个离散信息点以得出结论。然而,当前LLM在该领域面临多层面的瓶颈。本报告深入分析了这些挑战,包括模型内在的上下文利用效率低下事实性幻觉的累积效应,以及传统检索增强生成(RAG)范式的结构性局限。
2025-08-24 16:50:18
1207
原创 Android WebView访问网页+自动播放视频+自动全屏+切换横屏
Android WebView网页访问在线视频并自动全屏横屏播放的简单实现
2024-02-26 18:19:08
13099
4
原创 使用Python实现轮盘赌选择法Roulette Wheel Selection Method in Python
该博客简单地介绍了一种通过Python实现的轮盘赌选择法/Roulette Wheel Selection Method/Fitness Proportionate Selection Method
2023-12-07 21:42:53
7261
原创 Android开发Demo:TextView同时显示图片和文本、同时显示多种颜色
该博客介绍了如何在Android开发中的TextView控件同时显示图片和文本,或者同时显示不同颜色的文本
2023-08-28 16:02:42
8694
原创 错误: XXXAdapter不是抽象的, 并且未覆盖Adapter中的抽象方法onBindViewHolder(ViewHolder,int)
博客介绍了错误: XXXAdapter不是抽象的, 并且未覆盖Adapter中的抽象方法onBindViewHolder(ViewHolder,int)的一种解决方法(仅供参考)
2023-08-09 19:05:54
921
原创 SwipeDelMenuLayout失效:Could not find SwipeDelMenuLayout-V1.3.0.jar
博客介绍了问题“SwipeDelMenuLayout失效:Could not find SwipeDelMenuLayout-V1.3.0.jar”的产生原因和解决方案
2023-07-27 11:25:01
8343
14
原创 Error: Please select Android SDK解决方案(仅供参考)
博客介绍了一种Error: Please select Android SDK的解决方案
2023-07-26 18:12:49
10826
原创 Android开发:通过Tesseract第三方库实现OCR
博客介绍了如何通过第三方库Tesseract在Android端实现OCR(光学字符识别)
2023-07-24 20:58:32
10460
5
原创 Android开发笔记之Log日志输出及其正确使用方法
博客介绍了Android日志输出的正确使用方法,以及为什么要使用Android日志输出
2023-07-20 11:55:41
10141
1
原创 Win10环境下Android Studio中运行Flutter HelloWorld项目
博客总结了Flutter项目开发的基础环境搭建方法以及搭建过程中的常见问题
2023-07-19 15:02:38
1223
原创 LaTeX表格自定义行高+自定义列宽+大表格自适应页面宽度
调整LaTeX表格的行高/自定义LaTex表格行高,调整LaTeX表格的宽度/自定义LaTeX表格宽度,让LaTeX表格自适应为页面宽度
2023-03-05 22:27:56
35227
7
原创 MikTex+Texmaker环境LaTeX使用bib文件引用参考文献步骤
MikTex+Texmaker环境编译LaTeX项目正常显示引用序号和参考文献列表
2023-02-10 23:26:14
5468
原创 LaTeX使用graphicx+subfig实现子图合并+标题+子图标题
LaTeX通过graphicx+subfig实现子图合并+标题+子图标题的demo
2023-02-06 20:40:36
8049
3
原创 LaTeX使用enumitem包切换enumerate标签样式
LaTeX通过enumerate和enumitem包设置自定义的item标签样式
2023-02-01 16:29:52
9112
1
原创 一行代码解决PyTorch训练模型时突然出现的For debugging consider passing CUDA_LAUNCH_BLOCKING=1报错
RuntimeError: CUDA error: invalid device ordinalCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
2023-01-20 22:56:03
50652
14
原创 Python argparse对象与dict对象的相互转化
Python dict/字典对象快速转化为argparse对象,Python argparse对象快速转化为dict/字典对象
2023-01-16 21:03:27
6065
深圳大学PPT模板之地标中国风-4比3+16比9-个人完善版-解压密码iloveszu.rar
2021-12-12
Reinforcement Learning An Introduction引言部分摘录-强化学习与监督学习无监督学习的区别.pdf
2021-06-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅