自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(115)
  • 收藏
  • 关注

原创 mac m1安装大模型工具vllm

在App Store更新macOS和XCoder,依据XCoder版本号安装command line tools。大部分情况git clone会失败,所以直接下载vllm的release版本,这里下载0.92,链接如下。参考vllm官网文档,vllm对apple m1平台mac os, xcoder, clang有如下要求。需注意的是以上操作要在mac自带终端下完成,在iterm下会遇到编译问题。vLLM 将 Hugging Face 模型下载到本地,默认。2 安装anconda并初始化虚拟环境。

2025-07-09 18:50:20 141

原创 推荐系统中的归因分析

比如小红书种草 → 百度搜索 → 淘宝广告点击 → 下单,则:小红书40%,百度搜索20%,淘宝广告40%。初次点击如微信文章,占比30%;所有触点均匀分配转化价值,比如小红书种草 → 百度搜索 → 淘宝广告点击 → 下单,每个渠道获得 1/3 转化价值。比如小红书种草 → 百度搜索 → 淘宝广告点击 → 下单,权重为小红书10%、百度搜索30%、淘宝广告60%。用户8月1日小红书种草,8月5日搜索官网,8月10日淘宝广告点击并完成下单。“最后点击归因”将此次转化归于淘宝广告,适用电商促销季投放归因。

2025-07-05 15:40:31 277

原创 Deepseek-R1模拟订单波动&原因分析

2025-05-30,下跌72%!2025-07-03,泰柬边境关闭果蔬遭殃,出口损失预计高达600亿铢,泰柬边境关闭导致人员和货物过境停滞,蔬菜水果出口受严重影响,贸易额大幅下降,地缘政治冲突。2025-07-04,露珠未干,宁夏蔬菜已速递迪拜,宁夏冷凉蔬菜通过48小时空运直达迪拜,海关开通"绿色通道"压缩查验时间,中东订单增35%,通关效率提升。2025-07-04,露珠未干,宁夏蔬菜已速递迪拜,宁夏冷凉蔬菜通过48小时空运直达迪拜,海关开通"绿色通道"压缩查验时间,中东订单增35%,通关效率提升。

2025-07-04 18:56:15 507

原创 什么是协同归因和贡献归因

例如,对训练数据进行微小变动,观察大模型输出的变化,从而计算出每个训练样本对大模型输出的影响程度。在知识库或文献数据库中搜索相关的文献,并根据大模型输出的内容生成相应的引文,以追溯大模型输出的来源,并验证其准确性。对训练数据进行微小的变动,观察大模型输出的变化来实现。生成一些与真实数据相似但有差异的数据,观察大模型输出的差异,从而推断出真实数据对大模型输出的贡献程度。大量LLM文章提到归因,有各种各样的归因,那什么时协同归因,什么时贡献归因,这些与经常看到的归因有什么关联,这里参考论文内容尝试解释。

2025-07-03 10:53:06 278

原创 LLM归因的限制和挑战

LLM可能会将生成的答案和不相关或错误的来源关联起来,这种错误归因可能导致用户产生困惑,从而影响LLM生成内容的可靠性。可能导致LLM传播错误或误导性的信息,破快模型的可靠性。LLM区分一般知识(可能不需要引文)和专业知识(需要归因)是一项微妙的任务,难以达成一致。LLM过于频繁地提供引用,用户可能会因信息量过大而产生困惑,难以区分内容的重要性和相关性。计算机和临床医学等领域中,数据跟新速度更快,LLM做出的归因可能会很快过时。LLM归因虽然能提升任务性能和模型的可解释性,但面临多个方面的限制。

2025-07-02 15:37:31 169

原创 LLM归因的几种评估方式

为提高可靠性,针对一个(问题, 答案,归因文本),可能需要多个标注员同时进行标注,只有大部分人认为正确归因,该(问题,答案,归因)对才能算通过。另外还有,引用准确性,即模型响应文本中引用网络来源的频率,n-gram重叠度用于评估生成的语句是否来源于引用的参考文献。1)准确性,评估生成的陈述文本和提供的来源(参考文献)的一致性。2)精确性,评估生成的归因与所要回答问题的关联性的百分比。2)可以推断,引用的参考文献对生成的陈述的支持不足;3)召回率,评估生成的归因捕捉关键知识的范围。

2025-07-02 15:19:09 242

原创 归因错误的几种表现形式

如以下示例的第二句话,涉及了两个不同的内容巴西最大的金块和美国最大的金块,然而在答案中只引用了文档3(巴西最大金块),没有引用文档2(美国最大金块)。对于模糊不清的问题,答案可能涉及到多方面,这时候检索到的多个文档可能包含繁杂多样的信息,答案往往复杂且具有多样行,导致引用的内容不足以完全阐明问题。在引用时应确保引用的内容和生成的文本相符,同时对所有的参考的文档进行引用。检索的参考文献可能与问题无关,或者与模型内置参数知识存在冲突,导致生成错误的答案。

2025-07-02 12:07:13 225

原创 FRONT归因-两阶段训练流程

一致性感知对齐的目的是增强基于依据的过程和生成过程的一致性。采用对比学习的方法,将一致答案和不一致答案,在相同基准依据引用的指导下进行对齐。使用较小LLM如7B模型在少样本学习prompt设置下生成低质量、不一致答案作为负样本,并使用偏好优化(DPO)进行偏好对比对齐。FRONT归因框架,首先从检索到的源文档中选择支持性引用,然后基于这些引用指导生成过程,确保生成回答有据可依,引用准确无误。直接从源文档提取引用,减少了不相关信息的引入和幻觉风险。这些提取的引用随后用于归因答案的生成。

2025-07-01 18:38:14 106

原创 归因问答-有效归因实践

LLM作为检索模型,通过提示和微调的组合,直接根据问题和原始语料文档,生成答案和指向原始语料文档中归因语料的指针,整个过程没有手机用稀疏或稠密检索。RTR, Retrieve-then-Read, 使用BM25进行稀疏检索,然后使用GTR进行密集检索,最后使用FiD基于检索到的内容进行文档进行答案生成,在这种情况下检索到的文档就是答案的有效归因支持。|D| 是文档D的长度,指的是文档D中的词汇数量。avgdl是整个文档集合中所有文档长度的平均值,用于标准化不同文档的长度,以便可以公平比较不同长度的文档。

2025-07-01 15:49:06 770

原创 归因QA、闭卷QA、归因LLM的关系

另外,闭卷QA评估依赖于测试阳历的标注,这对于有多个不同答案的问题来说可能会比较麻烦,可能在设计测试例时候会有意识避免这些场景。闭卷QA不要求为答案提供支撑原因,归因QA要求为答案提供支撑原因。归因QA相比闭卷QA,对用户或系统设计者能提供更有用的信息。归因QA可能是简单的归因LLM任务,涉及到归因陈述或归因命题的核心任务。1) 一般会有多个陈述,需要决定对那些陈述进行归因。2) 输入不再是单一的问题-答案,而是更一般的陈述。2 归因QA和归因LLM。1 归因QA和闭卷QA。

2025-07-01 11:37:33 109

原创 归因问答-如何进行自动评估

如果nil_cli模型回答1,则认为(q, g(q))正确归因,否则认为(q, g(q))未被正确归因。要求nli_cli模型判断,在问题q的上下文中,答案a是否完全由文档段落p支持。给定问题qi、答案ai和相关段落pi表示为g(qi) =(ai, pi)。输出:(a, p), 其中a为答案,p为原始文章中支持答案a的段落。针对输入问题q,如何评估归因模型g输出中段落p是对答案a的正确归因。自动归因评估的精度依赖于归因逻辑的NLI分类模型的精度。采用如上评估过程,该测试系统的自动评估函数定义如下。

2025-06-30 11:24:48 232

原创 归因问答-如何进行人类评估

假设测试系统中n个问题q1, q2, ..., qn,对于每个问题qi,ri表示存在ri个评估者共同评估问题qi。采用如上评估过程,如果大部分的评估者认为q1被正确地回答和归因则g(xi)=0,否则为0。1)需求: 给定问题q、答案a和相关段落p,判断问题q和答案a是否可以归因于段落p;人工评估精度反映了该测试系统中,被大部分评估者认为可归因的问题所占的比例。3)如果两个问题的回答都是yes,则(q, a, p)被认为是可以归因。2)具体为: 针对1给出的要素,评审员要求回答在问题q的上下文中。

2025-06-27 00:05:23 313

原创 Deepseek-R1归因分析示例

{ "相关新闻序号": [2,4], "具体分析": "特斯拉股票在2023年11月15日大涨,主要受到两条新闻的影响。| 1 | 5月15日 | 据南方都市报,北京时间5月15日下午,贾跃亭也亲自对FF的异常涨势进行了说明,贾跃亭表示,越来越多的人开始关注到FF作为中美汽车桥梁的独一无二性,以及许多特有的价值。| 1 | 5月15日 | 据南方都市报,北京时间5月15日下午,贾跃亭也亲自对FF的异常涨势进行了说明,贾跃亭表示,越来越多的人开始关注到FF作为中美汽车桥梁的独一无二性,以及许多特有的价值。

2025-06-25 17:38:23 841

原创 问答归因测试集 - Attributed QA

问答归因,针对输入问题和原始文章,找出答案以及支持文本中支持答案的段落。要回答问题,需要通读原始文章,结合问题找到与问题答案直接相关段落,也就是归因段落。针对问答归因任务,LLM的输入一般是问题和原始文章,输出是答案和归因段落。Attributed QA是一种问答归因测试集,每个样本包含问题、答案、归因段落、原始文章,以及人工和机器标注的标签,以支持不同种类的LLM调优和评估。要回答问题,需要找出归因段落,以下段落是这个问题的归因段落,原因如下。在文章中找到与问题匹配的归因段落,可以采用多种方法,比如。

2025-06-25 11:32:17 824

原创 PPO优势函数的学习和解读

广义优势估计(Generalized Advantage Estimation)版本。其中γ是折扣因子,λ控制偏差与方差的权衡,V(s)是价值函数。

2025-06-24 17:39:53 198

原创 “自动化失败归因”方法-Who&When初探

Step-by-Step是模拟人工调试,让LLM从第一条agent日志开始,一条条逐步检查agent交互日志,在每步判断当前agent日志是否出现错误。Step-by-Step在定位错误agent日志位置上具备优势,但针对每个agent日志需要调用一次LLM,且越到后面agent日志,Who&When数据集评估了三种不同的自动化失败归因方法,即全局审视法(All-at-Once),逐步侦查法(Step-by-Step),二分定位法(Binary Search)。step-by-step的迭代代码示例如下。

2025-06-24 10:43:28 781

原创 “自动化失败归因”测试集-Who&When

包含了127个LLMMulti-Agent系统中收集的异常日志,并经过系统和人工处理。在MAS(Multi-Agent系统)中,Agent之间自主协作、信息链条长,异常常见而且诊断困难。第一个agent虽然提到了Tizin的别动式句型习惯,但实际没按Tizin的表达方式做句型转换。第0个agent的回答没有问题,问题出在第1个agent Orchestrator的解答。Tizin采用被动的方式,like表达为is pleasing to的被动句型,所以。“谁”(Who):哪个Agent是“罪魁祸首”。

2025-06-23 18:43:29 1043

原创 PPO在强化学习中的应用

PPO 优化语言模型,使其生成更符合人类偏好的响应,应用示例InstructGPT,ChatGPT。,然后由人类标注y1和y2那个更可用,可用响应为y_w,非可用响应为y_l。使用已有的领域语料对预训练后的LLM进行微调,得到初始策略模型。对于输入x,使用模型生成一对响应(y1, y2)。2) 训练奖励模型,使其预测奖励对的优劣。1) 初始化策略模型π_θ​,价值模型。优化价值模型以预测累积奖励。,目的是生成更符合人类偏好的响应。3) 得到最终优化后的策略模型。为响应评分,得到奖励。

2025-06-23 11:38:32 155

原创 PPO偏好策略函数的学习解读

LLM预训练后可能会输出不真实、有害或对用户无用的内容。LLM can数量巨大而且样本缺失或不均衡,传统有监督微调会导致训练不稳定和高方差问题。策略优化算法PPO, Proximal Policy Optimization,通过CLIP限制更新幅度和稳定训练过程,使LLM更好地在各任务上对齐人类意图。

2025-06-22 12:39:37 376

原创 DPO直接偏好函数的学习解读

从DPO优化目标和奖励函数可见,DPO样本的输入和输出为prompt + choosen + rejected,prompt用x表示,choosen表示的是可用输出,rejected表示的是不可用输出。通过最大化DPO目标函数,直接鼓励模型生成更偏好的响应,同时惩罚生成不偏好的响应,无需显式地训练一个奖励模型。这导致模型倾向于提升 𝑦_𝑤的概率,同时抑制 𝑦_𝑙 的概率。,其生成响应y的奖励函数r(x,y)由策略模型π_θ与参考模型π_ref(通常是SFT后模型)之间的对数概率比表示。对于一个给定策

2025-06-21 15:36:12 419

原创 KTO偏好效用函数的学习解读

Q(Y′|x)作用在Y‘的分布,Y'和Y关联: R → Rv在(0, ∞)区间非递减或单调递增,在这里参考点是策略模型相对于参考模型的分布的KL散度。直觉上如果模型增加偏好样本的奖励时,KL散度惩罚也会增加,损失不会增加,这将使模型学习,如何使输出被偏好的同时,奖励增加但是保持KL惩罚项平稳甚至降低。KTO不需要奖励模型打分,可能不能对样本间微小的偏好差异给出精确反馈,但KTO更加契合样本不均衡和相对缺乏的现实,在很多任务中优于DPO。输入(x, y),y可能是好输出,也可能不好输出。

2025-06-20 17:00:12 374

原创 RL偏好数据集

该数据集是基于论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback的中文翻译版,设置helpful和harmless标签,包括17万条训练数据和9千条测试数据。针对一个问题右deepseek-chat, qwen2.5-72b, gpt-40-mini, qwen2-7b4个模型分别进行反馈并。

2025-06-19 11:28:25 212

原创 deepseek-r1 - 家庭关系循环指向问题的生成和验证

1. 问题生成1)生成prompt基于家庭关系图谱和示例问题,生成多个家庭关系循环指向问题。"""假设你是一名专业的逻辑考试专家,请你设计家庭关系循环指向问题,推理需要2跳,并保证答案唯一性。已知家庭关系图谱如下:A(男)和B(女)组成夫妻,育有一个独生女C。A的父D和E只有一个儿子A。B的父(F)和母(G)只有一个女儿B。C的老公是H。H的父亲I,母亲J,H是I和J的唯一儿子。I的父亲K,母亲L,I是K和L的唯一儿子。J的父亲M,母亲N。J是M和N的唯一女儿。

2025-06-19 09:38:54 262

原创 Deepseek-R1生成路灯标书的学习示例

参考AIBS- AI项目,调用Deepseek-R1生成路灯标书,首先是大纲生成,其次依据大纲生成段落。1 大纲生成1) 大纲prompt大纲prompt需要包含技术要求和打分要求。2) DeepSeek-R1依据技术要求和打分要求生成大纲生成大纲采用json格式,符合prompt的格式要求,且json可解析。2 段落生成1) 段落promptprompt中“章节题目”和“章节概要”来自大纲。2) 章节生成DeepSeek-R1依据“章节题目”和“章节概要”生成章节内容---AIBS 标书生成器(AI Bi

2025-06-18 11:58:20 689

原创 BizFinBench评估解析

这里针对金融数据描述、金融问答、工具规划等问题,示例和学习BizFinBench LLM提示词。针对9个不同子问题,BizFinBench分别开发了LLM提示词模版。3 金融工具规划(Financial Tool Usage)评估。

2025-06-17 15:46:25 179

原创 ip 命令 和ifconfig 命令 删除IP

使用ifconfig命令添加一个VIP后,如果需要将这个VIP删除,可以使用ifconfig VIP down命令。但是,如果操作顺序不当,VIP会仍然留在系统缓存中,这时,使用ifconfig是看不到这个VIP的,但是,使用IP命令能够看到。查看ipip -o -f inet addr show删除ip ip -f inet addr delete 1

2025-06-17 15:23:38 318

原创 git获取远程github仓库指定commit版本

git clone -b branch git@github/$username/$project.gitgit checkout commitid

2025-06-17 15:19:58 138

原创 BizFinBench任务解析

Question: 你是一位经验丰富的金融数据分析师,请根据以下,回答出,并给出你的理由。question: 在2024年8月至2024年9月期 间,百度的收盘价大于90.00美元的天数 有几天?股票代码 股票简称 收盘价(20240801) ……收盘价(20240830)金融命名实体抽取(Financial Named Entity Recognition)这里从BizFinBench涵盖的5个维度出发,细分为9个子类别分别示例测试例。金融知识问答(Financial Knowledge QA)

2025-06-17 15:11:16 507

原创 标书生成过程中的prompt解读

你的任务是根据技术要求和评分标准,生成一份测试版的投标文件大纲,只需要1个章节,每个章节包含一个节,每个节包含一个子节。要在给定技术要求、评分要求、以及上述大纲的前提下,综合章节标题及该章节内容要求,逐章节依次生成标书内容。OUTLINE_GENERATE_USER = """现在请基于之前提供的技术要求和评分标准,生成一份完整的投标文件大纲。CONTENT_SYSTEM_ROLE = """你是一名专业的技术方案撰写专家,擅长编写 IT 信息化项目的技术文档。

2025-06-16 18:29:49 628

原创 金融领域LLM开源测试集

结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,金融业务场景基准数据集。

2025-06-13 17:04:55 336

原创 工控领域多模态LLM测试集

半自动生成的细胞核实例分割和分类数据集,包含 19 种不同组织类型的详尽细胞核标签。该数据集由 481 个视野组成,其中 312 个视野是从多个数据源的 20K 多个不同放大倍率的整张幻灯片图像中随机采样的。该数据集总共包含 205,343 个标记的核,每个核都有一个实例分割掩码。数据集里有1万份来自实际生产中有瑕疵的铝型材监测影像数据,每个影像包含一个或多种瑕疵。从4个数据集收集8366样本,涵盖38类工业产品,生成 39,672个样本,覆盖7个核心任务。PanNuke癌组织细胞数据集。

2025-06-13 16:52:24 346

原创 基于LLM的图表理解和绘制

图表理解ChartLlama-code. ChartMoE. 图表绘制---

2025-06-13 16:33:44 221

原创 Deepseek+python - 自动图表生成

请整理并分析上传的数据,生成数据看板,包括标题,不同品牌销售数据柱状图和看板、品牌份额饼图和技术卖点分布条形图。python绘制的图表还比较初级,可以让deepseek生成HTML或Mermaid,在Cherry Studio或Mermaid环境生成更专业的可视化图表。Deepseek不支持直接自动绘制图表,但支持生成图表代码,如python、mermaid、html,支持对图表内容进行修改。请联网搜索2024年小米、比亚迪、特斯拉、奇瑞、吉利、广汽、大众等品牌新能源车的销量,以csv的格式输出。

2025-06-13 15:59:40 269

原创 IteraJudge-增量多维评判框架解读

数据描述: 只需判断<模型生成的输出>中是否存在描述与具体数据相背的情况,如果有则得0分。IteraJudge是BizFinBench测试集采用的迭代式评估框架,针对待测模型给出的初始答案,不直接进行打分,而是在多个维度精炼后作为质量基准,然后对初始答案进行打分,整个过程兼顾多个评估维度,使得打分更具信服力。数据错用:<模型生成的输出>中的指标数字应该和<instruction>中的对应上,不应该出现指标错用、时间错用等情况,例如:从55.32增长到59.14描述成从55.24增长到58.32。

2025-06-12 19:16:35 973

原创 spearman相关性 - 斯皮尔曼秩相关系数

spearman使用的是数据样本排位位次值,所以对于异常值不敏感,实际数据之间的差异对于计算结果没有直接的影响。所以,spearman更适合处理一些非线形、非正太分布、非数值类型的数据。spearman相关性,核心是斯皮尔曼相关系数,是秩相关的一种非参数度量,考察的是两个随机变量之间的单调关系的强度,也就是说两者在变大或变小的趋势上多大程度能保持步调一致。简易计算公式取得是每对秩的差值平方,但是它能反映相关的方向,如下例子中将x中的排序值颠倒以后,计算所得的相关系数也变成负的。

2025-06-10 16:15:51 281

原创 InternVL2.5-多模态大模型评估专业图片

这张图像显示的是显微镜下的组织切片,染色方法可能是苏木精-伊红染色(H&E)。对于专业图片如医学细胞切片,从专业角度解析,能推动模型应用到更广泛的领域。具备图像理解功能的大模型InternVL2.5,能有效解析大部分图片。InternVL2.5回答(一定程度上已具备专业能力)prompt(胸部癌变细胞图片,来自PanNuke)InternVL2.5解析示例。PanNuke数据集.请评估这个组织的风险。

2025-06-01 23:15:32 234

原创 DeepSeek生成逻辑推理题目

**修正逻辑**:若B说真话且C说假话,则“A和C都没偷”不成立,即至少一人偷。场景不限于小偷,犯罪,排名,比赛,可以分散场景,比如建筑,比如修路,比如养殖,比如金融,比如动漫,比如设计,比如美术等。- 但题干中鸡蛋被偷,说明唯一可能偷的是A(因为B、C没偷,且A说假话掩盖自己),矛盾点在于C的假话逻辑。- 但若C偷了,C的陈述中“A和C至少一个偷了”为真,但此时只有C偷,A未偷,与“至少一个”不矛盾。- 但需满足只有一人说真话,此时A、B说假话,C说真话,但题目要求唯一解,此情况与B说真话的解冲突。

2025-05-29 16:24:19 448

原创 LLM做逻辑推理题 - 移火柴

移动72中“7”的右侧竖杠(即组成7的第二根火柴)到前面的数字“2”右侧,将其变为“23”。参考网友的推理,247-211=36,所以把那根移动的火柴折成两半,一半给前面加号变为4,另一半💺减号放在247和211之间。用火柴摆了一个2+72+1的式子,现在要求你移动其中任何一根火柴,然后将式子的答案变成36。**答案**:移动72中“7”的右侧竖火柴到前面的“2”,使其变成23+12+1,结果为36。2. **移动操作**:将72中“7”的右侧竖杠火柴移至前面的“2”右侧。

2025-04-21 09:53:42 263

原创 LLM做逻辑推理题 - 结果如何

考试不黑时,"C:如果考试不黑,我就能考上。" => 逻辑关系应该是考试不黑则能考上,此时有A和C两人考上,与题目相矛盾。- **A、B、C的陈述**在黑的情况下自动成立(条件为假时蕴含式恒真),因此录取A、B或C中任意一人均不违反预测。若考试黑,则允许A、B、C中唯一一人被录取(D被排除),且所有预测均成立。假设考试黑,A不一定考上,B考不上,C考不上,D考不上。- 矛盾:若考试不黑,A和C均需被录取,但职位只招一人。因此考试不可能不黑。假设考试不黑,所以A考上了,B他可能考不上,D有可能考不上。

2025-04-20 00:46:25 422

原创 LLM做逻辑推理题 - 如何找出不标准的球?

进入步骤二处理这26个,在26个重找非标准球,过程类似步骤二中在54个球中找非标准球,且难度更小,忽略具体过程。步骤一和步骤二将范围缩小到18和确定了非标准球是更轻或更重,要求在剩下的2步从18个球找更轻的非标准球,由于18>3**2,所以可能找不出来。- **将左边27分L1-9、L10-18、L19-27,右边27分R1-9, R10-18, R19-27**- 问题球在左边的27个(可能重)或右边的27个(可能轻)。**步骤三 在18个球中找更轻的非标准球,在18个球中找更重的非标准球步骤类似 **

2025-04-19 18:16:42 556

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除