liliangcsdn-CSDN博客

原创金融领域LLM开源测试集

结合迭代校准评估框架IteraJudge，对25个先进LLM进行全面评估，发现在金融AI领域与人类期望存在显著性能差距。涉及50万个金融实体，涵盖问答、推理、情感新粉、主题分类、NER和对话，金融业务场景基准数据集。

2025-06-13 17:04:55 203

半自动生成的细胞核实例分割和分类数据集，包含 19 种不同组织类型的详尽细胞核标签。该数据集由 481 个视野组成，其中 312 个视野是从多个数据源的 20K 多个不同放大倍率的整张幻灯片图像中随机采样的。该数据集总共包含 205,343 个标记的核，每个核都有一个实例分割掩码。数据集里有1万份来自实际生产中有瑕疵的铝型材监测影像数据，每个影像包含一个或多种瑕疵。从4个数据集收集8366样本，涵盖38类工业产品，生成 39,672个样本，覆盖7个核心任务。PanNuke癌组织细胞数据集。

2025-06-13 16:52:24 204

原创基于LLM的图表理解和绘制

图表理解ChartLlama-code. ChartMoE. 图表绘制---

2025-06-13 16:33:44 145

原创 Deepseek+python - 自动图表生成

请整理并分析上传的数据，生成数据看板，包括标题，不同品牌销售数据柱状图和看板、品牌份额饼图和技术卖点分布条形图。python绘制的图表还比较初级，可以让deepseek生成HTML或Mermaid，在Cherry Studio或Mermaid环境生成更专业的可视化图表。Deepseek不支持直接自动绘制图表，但支持生成图表代码，如python、mermaid、html，支持对图表内容进行修改。请联网搜索2024年小米、比亚迪、特斯拉、奇瑞、吉利、广汽、大众等品牌新能源车的销量，以csv的格式输出。

2025-06-13 15:59:40 132

原创 IteraJudge-增量多维评判框架解读

数据描述: 只需判断<模型生成的输出>中是否存在描述与具体数据相背的情况，如果有则得0分。IteraJudge是BizFinBench测试集采用的迭代式评估框架，针对待测模型给出的初始答案，不直接进行打分，而是在多个维度精炼后作为质量基准，然后对初始答案进行打分，整个过程兼顾多个评估维度，使得打分更具信服力。数据错用：<模型生成的输出>中的指标数字应该和<instruction>中的对应上，不应该出现指标错用、时间错用等情况，例如：从55.32增长到59.14描述成从55.24增长到58.32。

2025-06-12 19:16:35 958

原创 spearman相关性 - 斯皮尔曼秩相关系数

spearman使用的是数据样本排位位次值，所以对于异常值不敏感，实际数据之间的差异对于计算结果没有直接的影响。所以，spearman更适合处理一些非线形、非正太分布、非数值类型的数据。spearman相关性，核心是斯皮尔曼相关系数，是秩相关的一种非参数度量，考察的是两个随机变量之间的单调关系的强度，也就是说两者在变大或变小的趋势上多大程度能保持步调一致。简易计算公式取得是每对秩的差值平方，但是它能反映相关的方向，如下例子中将x中的排序值颠倒以后，计算所得的相关系数也变成负的。

2025-06-10 16:15:51 227

原创 InternVL2.5-多模态大模型评估专业图片

这张图像显示的是显微镜下的组织切片，染色方法可能是苏木精-伊红染色（H&E）。对于专业图片如医学细胞切片，从专业角度解析，能推动模型应用到更广泛的领域。具备图像理解功能的大模型InternVL2.5，能有效解析大部分图片。InternVL2.5回答(一定程度上已具备专业能力)prompt(胸部癌变细胞图片,来自PanNuke)InternVL2.5解析示例。PanNuke数据集.请评估这个组织的风险。

2025-06-01 23:15:32 223

原创 DeepSeek生成逻辑推理题目

**修正逻辑**：若B说真话且C说假话，则“A和C都没偷”不成立，即至少一人偷。场景不限于小偷，犯罪，排名，比赛，可以分散场景，比如建筑，比如修路，比如养殖，比如金融，比如动漫，比如设计，比如美术等。- 但题干中鸡蛋被偷，说明唯一可能偷的是A（因为B、C没偷，且A说假话掩盖自己），矛盾点在于C的假话逻辑。- 但若C偷了，C的陈述中“A和C至少一个偷了”为真，但此时只有C偷，A未偷，与“至少一个”不矛盾。- 但需满足只有一人说真话，此时A、B说假话，C说真话，但题目要求唯一解，此情况与B说真话的解冲突。

2025-05-29 16:24:19 419

原创 LLM做逻辑推理题 - 移火柴

移动72中“7”的右侧竖杠（即组成7的第二根火柴）到前面的数字“2”右侧，将其变为“23”。参考网友的推理，247-211=36，所以把那根移动的火柴折成两半，一半给前面加号变为4，另一半💺减号放在247和211之间。用火柴摆了一个2+72+1的式子，现在要求你移动其中任何一根火柴，然后将式子的答案变成36。**答案**：移动72中“7”的右侧竖火柴到前面的“2”，使其变成23+12+1，结果为36。2. **移动操作**：将72中“7”的右侧竖杠火柴移至前面的“2”右侧。

2025-04-21 09:53:42 247

原创 LLM做逻辑推理题 - 结果如何

考试不黑时，"C：如果考试不黑，我就能考上。" => 逻辑关系应该是考试不黑则能考上，此时有A和C两人考上，与题目相矛盾。- **A、B、C的陈述**在黑的情况下自动成立（条件为假时蕴含式恒真），因此录取A、B或C中任意一人均不违反预测。若考试黑，则允许A、B、C中唯一一人被录取（D被排除），且所有预测均成立。假设考试黑，A不一定考上，B考不上，C考不上，D考不上。- 矛盾：若考试不黑，A和C均需被录取，但职位只招一人。因此考试不可能不黑。假设考试不黑，所以A考上了，B他可能考不上，D有可能考不上。

2025-04-20 00:46:25 410

原创 LLM做逻辑推理题 - 如何找出不标准的球？

进入步骤二处理这26个，在26个重找非标准球，过程类似步骤二中在54个球中找非标准球，且难度更小，忽略具体过程。步骤一和步骤二将范围缩小到18和确定了非标准球是更轻或更重，要求在剩下的2步从18个球找更轻的非标准球，由于18>3**2，所以可能找不出来。- **将左边27分L1-9、L10-18、L19-27，右边27分R1-9, R10-18, R19-27**- 问题球在左边的27个（可能重）或右边的27个（可能轻）。**步骤三在18个球中找更轻的非标准球，在18个球中找更重的非标准球步骤类似 **

2025-04-19 18:16:42 550

原创 LLM做逻辑推理题 - 他们分别是哪里人？

C的陈述中，第4句“B属于南区人”为假（因南区人唯一），但第1句“我不是中区人”也为假，说明C是中区人。- **最终结论**：南区人实际为C，其陈述第4句“B属于南区人”为假（因南区人唯一），故C的发言模式为两真一假，符合南区人身份。可以验证A2假，即B是南区人，所以B1为真，E赢得了银牌，所以E1为假，B4为真，也就是E不是中区人就是局外人。D4，即C不是北区人，是真实的，此时，B、C、D、E至少有一个是真实的，因此A是北区人。B2，即"C第一句话说的是假的"为真，所以C1("我不是中区人。

2025-04-18 22:40:07 770

原创 LLM做逻辑推理题 - 拥有古物的是谁？

张某说：“刚才我不知道，听孙某一说，我现在知道了。此时，因为剩余的张姓(张飞、张鹏)和沈姓(沈括)名字之间不重复的，因为此时假设张某不还不确定人选，说明即使名字在这几个剩余的姓张的名字和姓沈的名字中命中，但名字跟其他姓重复(岳飞、赵鹏、赵括)，所以张某不能确定。1. **孙某的第一句话**排除了姓沈和姓张的可能，因为这两个姓中存在唯一的名（如沈万三的张良），导致张某可能提前确定。孙某必然不知道，因为所有的姓都是重复的，孙某如此说期望张某能提供进一步信息，比如名字是否也是重复的，所以孙某只能做一些猜想。

2025-04-17 19:31:27 536

原创 LLM做逻辑推理题 - 野鸭蛋的故事

因此可知，C岛是发现了2个（⑤），去C岛的是东晴。5. **条件⑤**：C岛蛋数2（东晴所在岛），满足“张虹（3）或C岛（2）中有一者是2”。因为21岁的女孩不是去了A岛（印玉）（③），所以，21岁的是张虹。4. **19岁的印玉**蛋数2（条件④：19岁女生蛋数比B岛多1，B岛西雨蛋数1）。3. **21岁的张虹**蛋数3（条件③：21岁女生蛋数比A岛多1，即2+1=3）。2. **印玉**在A岛（条件②），蛋数为2（通过条件③④推导）。6. **条件⑥**：D岛蛋数3，比西雨（1）多2，符合逻辑。

2025-04-16 19:44:36 367

原创 LLM做逻辑推理题 - 飞机事件

一共需要10架飞机。- 目标飞机继续飞行 **90 度**，消耗 **90/180 = 1/2 箱油**，剩余 **7/6 - 1/2 = 2/3 箱油**，足够完成最后 **30 度** 的飞行。- 飞行至 **90 度**，消耗 **30 度** 对应的油量 **30/180 = 1/6 箱**，剩余 **1 - 1/6 = 5/6 箱**。- 转移的油量需满足：剩余油量 - 返程所需油量 = **1 - 2x/180**（即每架辅助飞机最多可转移 **1 - x/90 箱油**）。

2025-04-16 16:14:18 636

原创 LLM做逻辑推理题-找规律填数字

解析：1 → 1（+0），1 → 4（+3），4 → 7（+3），7 → 10（+3），10 → **13**（+3），之后差值变为+6（13+6=19），接着继续加3：19→22→25。解析：差值依次为+1, +2, +3, +4, +5，后续应为+6：16 + 6 = **22**，之后的差值为+7（22→29），+8（29→37），+9（37→46）。解析：1（1²）, 4（2²）, 9（3²）, 16（4²）, **25（5²）**, 36（6²）, 49（7²）, 64（8²）。

2025-04-16 16:00:19 840

原创 LLM做逻辑推理题-确定他们的民族

再看条件3，丙和苗族人是技师，所以丙不是苗族人，苗族人是另一个人，假设苗族人是X，那么X是技师，丙也是技师？也就是说，丙是技师，苗族人也是技师？首先，根据条件4，乙和己当过兵，而苗族人没当过兵，所以乙和己都不是苗族人，因此苗族人只能是甲、丙、丁、戊、己中的其他人，但乙己排除了，剩下的可能苗族人是甲、丙、丁、戊中的一个。另外，根据条件6，丙和回族人要去瑞士，所以回族人不是丙，回族人可能是甲、乙、丁、戊、己中的一个，但根据条件5，回族人比甲年龄大，所以回族人不能是甲，所以回族人只能是乙、丁、戊、己中的一个。

2025-04-14 19:08:45 696

原创 LLM做逻辑推理题-哪一项圈出后不用找零

因此，四位中两位女性使用这两组，兩位男性也使用这两组，但题目可能不允许重复使用同样的组合，因为题目中的每个人都要带四枚硬币，所以女性A和女性B用了不同的组合，男性A和男性B也用了不同的组合，即可能四位每个人都不同的组合。因此，我们需要找到这样的两个四硬币的组合，它们的总和相同，且两组的面值没有交集。因为题目中是两男两女，所以女性需要两组不同的组合，男性也需要两组不同的组合，所以可能有女性的两组和男性的两组都需要满足这个条件，但女性的两组之间不相交，男性的两组之间不相交，但女性和男性之间可能可以共享面值？

2025-04-14 16:33:32 453

原创 LLM做逻辑推理题-她到底多大年龄？

不，因为李的说法是绝对在30岁以上，所以年龄36岁也满足李的说法，但同时赵的说法是35岁以下，所以36岁时李正确，赵错误，张、王都错误，此时只有李正确，而年龄是36岁，这时候选项B是“她的年龄在35岁以上”，即正确，所以选项B在这种情况下成立。但是当年龄是35岁时，李的说法正确，赵错误，此时正确的选项应该是李正确，但选项中并没有直接说李正确的选项，而是选项C是年龄在30-35岁之间，所以此时如果年龄35岁属于选项C，那么选项C正确，而李是正确的，但题目中说只有李正确，其他三人错误，所以选项C是否正确？

2025-04-14 10:44:01 581

原创 LLM做逻辑推理题 - 为什么小张是A队的

因此，无论小张选择问的是哪个队的人，只要他报告对方说西边，那么只有当他属于A队时才会这样，而如果是B队的话，他必须撒谎对方的回答，所以对方的真实回答要么是西边（如果问的是A队的人），此时小张撒谎会变成东边；如果小张问的是B队的人，B队的人会说假话，由于他们实际在东边，但他们会撒谎说自己不在东边，所以他们会回答西边，所以不管小张问的是A队还是B队的人，只要小张自己是A队的，他都会如实报告对方说西边，因此这个学生听到小张说对方回答西边，就可以推测小张是A队的，因为如果是B队的小张，他会撒谎对方的回答。

2025-04-14 09:15:09 796

原创 LLM做逻辑推理题 - 三人贴纸条游戏

设三个数为 \(a\)、\(b\)、\(c\)，其中必须满足 \(a + b = c\)、\(a + c = b\) 或 \(b + c = a\)。但若他的数是 \(b + 144\)，则 \(a = b + 144\)，代入 \(a + b = 144\) 会导致 \(b = 0\)（矛盾），因此他只能是 \(144 - b\)，但无法确定具体值，故摇头。- 若 \(a > b\)，则 \(c = a - b\)，此时 \(a = b + c = b + (a - b) = a\)，恒成立。

2025-04-14 08:54:11 418

原创 LLaMA-META发布单卡就能跑的大模型

2023年2月25日，Meta使用2048张A100 GPU，花费21天训练的Transformer大模型LLaMA开源了。

2023-02-27 20:52:35 3251

原创 linux: 程序重定向没及时输出到文件

stdbuf -oL ./test>>out其中的参数，o表示输出流，L表示行缓冲。这样主要遇到换行符，就会将缓冲输出到指定对象。参考:https://blog.csdn.net/frank_liuxing/article/details/54017813

2021-06-29 16:13:50 1559

原创知识图谱驱动对话模型的解读

最近在做知识图谱驱动的多轮对话，查了很多资料，很多方案都采用“分类+NER+图谱规则”的方式做，在特别狭窄的领域感觉还可以，但是在宽一点的领域，就感觉图谱规则特别像机器人不太自然。在看了Knowledge-driven-dialogue项目后感觉很受启发。感谢作者的方案分享，在这里记录下自己对这个项目模型的一点点小的认识，由于对专业术语掌握的不精，主要采用通俗的描述方式，可能描述不精确，大家意会就行啦。https://github.com/lihanghang/AI-Competition/tree

2021-06-24 11:16:56 801

空空如也

空空如也