自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 收藏
  • 关注

原创 金融领域LLM开源测试集

结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,金融业务场景基准数据集。

2025-06-13 17:04:55 203

原创 工控领域多模态LLM测试集

半自动生成的细胞核实例分割和分类数据集,包含 19 种不同组织类型的详尽细胞核标签。该数据集由 481 个视野组成,其中 312 个视野是从多个数据源的 20K 多个不同放大倍率的整张幻灯片图像中随机采样的。该数据集总共包含 205,343 个标记的核,每个核都有一个实例分割掩码。数据集里有1万份来自实际生产中有瑕疵的铝型材监测影像数据,每个影像包含一个或多种瑕疵。从4个数据集收集8366样本,涵盖38类工业产品,生成 39,672个样本,覆盖7个核心任务。PanNuke癌组织细胞数据集。

2025-06-13 16:52:24 204

原创 基于LLM的图表理解和绘制

图表理解ChartLlama-code. ChartMoE. 图表绘制---

2025-06-13 16:33:44 145

原创 Deepseek+python - 自动图表生成

请整理并分析上传的数据,生成数据看板,包括标题,不同品牌销售数据柱状图和看板、品牌份额饼图和技术卖点分布条形图。python绘制的图表还比较初级,可以让deepseek生成HTML或Mermaid,在Cherry Studio或Mermaid环境生成更专业的可视化图表。Deepseek不支持直接自动绘制图表,但支持生成图表代码,如python、mermaid、html,支持对图表内容进行修改。请联网搜索2024年小米、比亚迪、特斯拉、奇瑞、吉利、广汽、大众等品牌新能源车的销量,以csv的格式输出。

2025-06-13 15:59:40 132

原创 IteraJudge-增量多维评判框架解读

数据描述: 只需判断<模型生成的输出>中是否存在描述与具体数据相背的情况,如果有则得0分。IteraJudge是BizFinBench测试集采用的迭代式评估框架,针对待测模型给出的初始答案,不直接进行打分,而是在多个维度精炼后作为质量基准,然后对初始答案进行打分,整个过程兼顾多个评估维度,使得打分更具信服力。数据错用:<模型生成的输出>中的指标数字应该和<instruction>中的对应上,不应该出现指标错用、时间错用等情况,例如:从55.32增长到59.14描述成从55.24增长到58.32。

2025-06-12 19:16:35 958

原创 spearman相关性 - 斯皮尔曼秩相关系数

spearman使用的是数据样本排位位次值,所以对于异常值不敏感,实际数据之间的差异对于计算结果没有直接的影响。所以,spearman更适合处理一些非线形、非正太分布、非数值类型的数据。spearman相关性,核心是斯皮尔曼相关系数,是秩相关的一种非参数度量,考察的是两个随机变量之间的单调关系的强度,也就是说两者在变大或变小的趋势上多大程度能保持步调一致。简易计算公式取得是每对秩的差值平方,但是它能反映相关的方向,如下例子中将x中的排序值颠倒以后,计算所得的相关系数也变成负的。

2025-06-10 16:15:51 227

原创 InternVL2.5-多模态大模型评估专业图片

这张图像显示的是显微镜下的组织切片,染色方法可能是苏木精-伊红染色(H&E)。对于专业图片如医学细胞切片,从专业角度解析,能推动模型应用到更广泛的领域。具备图像理解功能的大模型InternVL2.5,能有效解析大部分图片。InternVL2.5回答(一定程度上已具备专业能力)prompt(胸部癌变细胞图片,来自PanNuke)InternVL2.5解析示例。PanNuke数据集.请评估这个组织的风险。

2025-06-01 23:15:32 223

原创 DeepSeek生成逻辑推理题目

**修正逻辑**:若B说真话且C说假话,则“A和C都没偷”不成立,即至少一人偷。场景不限于小偷,犯罪,排名,比赛,可以分散场景,比如建筑,比如修路,比如养殖,比如金融,比如动漫,比如设计,比如美术等。- 但题干中鸡蛋被偷,说明唯一可能偷的是A(因为B、C没偷,且A说假话掩盖自己),矛盾点在于C的假话逻辑。- 但若C偷了,C的陈述中“A和C至少一个偷了”为真,但此时只有C偷,A未偷,与“至少一个”不矛盾。- 但需满足只有一人说真话,此时A、B说假话,C说真话,但题目要求唯一解,此情况与B说真话的解冲突。

2025-05-29 16:24:19 419

原创 LLM做逻辑推理题 - 移火柴

移动72中“7”的右侧竖杠(即组成7的第二根火柴)到前面的数字“2”右侧,将其变为“23”。参考网友的推理,247-211=36,所以把那根移动的火柴折成两半,一半给前面加号变为4,另一半💺减号放在247和211之间。用火柴摆了一个2+72+1的式子,现在要求你移动其中任何一根火柴,然后将式子的答案变成36。**答案**:移动72中“7”的右侧竖火柴到前面的“2”,使其变成23+12+1,结果为36。2. **移动操作**:将72中“7”的右侧竖杠火柴移至前面的“2”右侧。

2025-04-21 09:53:42 247

原创 LLM做逻辑推理题 - 结果如何

考试不黑时,"C:如果考试不黑,我就能考上。" => 逻辑关系应该是考试不黑则能考上,此时有A和C两人考上,与题目相矛盾。- **A、B、C的陈述**在黑的情况下自动成立(条件为假时蕴含式恒真),因此录取A、B或C中任意一人均不违反预测。若考试黑,则允许A、B、C中唯一一人被录取(D被排除),且所有预测均成立。假设考试黑,A不一定考上,B考不上,C考不上,D考不上。- 矛盾:若考试不黑,A和C均需被录取,但职位只招一人。因此考试不可能不黑。假设考试不黑,所以A考上了,B他可能考不上,D有可能考不上。

2025-04-20 00:46:25 410

原创 LLM做逻辑推理题 - 如何找出不标准的球?

进入步骤二处理这26个,在26个重找非标准球,过程类似步骤二中在54个球中找非标准球,且难度更小,忽略具体过程。步骤一和步骤二将范围缩小到18和确定了非标准球是更轻或更重,要求在剩下的2步从18个球找更轻的非标准球,由于18>3**2,所以可能找不出来。- **将左边27分L1-9、L10-18、L19-27,右边27分R1-9, R10-18, R19-27**- 问题球在左边的27个(可能重)或右边的27个(可能轻)。**步骤三 在18个球中找更轻的非标准球,在18个球中找更重的非标准球步骤类似 **

2025-04-19 18:16:42 550

原创 LLM做逻辑推理题 - 他们分别是哪里人?

C的陈述中,第4句“B属于南区人”为假(因南区人唯一),但第1句“我不是中区人”也为假,说明C是中区人。- **最终结论**:南区人实际为C,其陈述第4句“B属于南区人”为假(因南区人唯一),故C的发言模式为两真一假,符合南区人身份。可以验证A2假,即B是南区人,所以B1为真,E赢得了银牌,所以E1为假,B4为真,也就是E不是中区人就是局外人。D4,即C不是北区人,是真实的,此时,B、C、D、E至少有一个是真实的,因此A是北区人。B2,即"C第一句话说的是假的"为真,所以C1("我不是中区人。

2025-04-18 22:40:07 770

原创 LLM做逻辑推理题 - 拥有古物的是谁?

张某说:“刚才我不知道,听孙某一说,我现在知道了。此时,因为剩余的张姓(张飞、张鹏)和沈姓(沈括)名字之间不重复的,因为此时假设张某不还不确定人选,说明即使名字在这几个剩余的姓张的名字和姓沈的名字中命中,但名字跟其他姓重复(岳飞、赵鹏、赵括),所以张某不能确定。1. **孙某的第一句话**排除了姓沈和姓张的可能,因为这两个姓中存在唯一的名(如沈万三的张良),导致张某可能提前确定。孙某必然不知道,因为所有的姓都是重复的,孙某如此说期望张某能提供进一步信息,比如名字是否也是重复的,所以孙某只能做一些猜想。

2025-04-17 19:31:27 536

原创 LLM做逻辑推理题 - 野鸭蛋的故事

因此可知,C岛是发现了2个(⑤),去C岛的是东晴。5. **条件⑤**:C岛蛋数2(东晴所在岛),满足“张虹(3)或C岛(2)中有一者是2”。因为21岁的女孩不是去了A岛(印玉)(③),所以,21岁的是张虹。4. **19岁的印玉**蛋数2(条件④:19岁女生蛋数比B岛多1,B岛西雨蛋数1)。3. **21岁的张虹**蛋数3(条件③:21岁女生蛋数比A岛多1,即2+1=3)。2. **印玉**在A岛(条件②),蛋数为2(通过条件③④推导)。6. **条件⑥**:D岛蛋数3,比西雨(1)多2,符合逻辑。

2025-04-16 19:44:36 367

原创 LLM做逻辑推理题 - 飞机事件

一共需要10架飞机。- 目标飞机继续飞行 **90 度**,消耗 **90/180 = 1/2 箱油**,剩余 **7/6 - 1/2 = 2/3 箱油**,足够完成最后 **30 度** 的飞行。- 飞行至 **90 度**,消耗 **30 度** 对应的油量 **30/180 = 1/6 箱**,剩余 **1 - 1/6 = 5/6 箱**。- 转移的油量需满足:剩余油量 - 返程所需油量 = **1 - 2x/180**(即每架辅助飞机最多可转移 **1 - x/90 箱油**)。

2025-04-16 16:14:18 636

原创 LLM做逻辑推理题-找规律填数字

解析:1 → 1(+0),1 → 4(+3),4 → 7(+3),7 → 10(+3),10 → **13**(+3),之后差值变为+6(13+6=19),接着继续加3:19→22→25。解析:差值依次为+1, +2, +3, +4, +5,后续应为+6:16 + 6 = **22**,之后的差值为+7(22→29),+8(29→37),+9(37→46)。解析:1(1²), 4(2²), 9(3²), 16(4²), **25(5²)**, 36(6²), 49(7²), 64(8²)。

2025-04-16 16:00:19 840

原创 LLM做逻辑推理题-确定他们的民族

再看条件3,丙和苗族人是技师,所以丙不是苗族人,苗族人是另一个人,假设苗族人是X,那么X是技师,丙也是技师?也就是说,丙是技师,苗族人也是技师?首先,根据条件4,乙和己当过兵,而苗族人没当过兵,所以乙和己都不是苗族人,因此苗族人只能是甲、丙、丁、戊、己中的其他人,但乙己排除了,剩下的可能苗族人是甲、丙、丁、戊中的一个。另外,根据条件6,丙和回族人要去瑞士,所以回族人不是丙,回族人可能是甲、乙、丁、戊、己中的一个,但根据条件5,回族人比甲年龄大,所以回族人不能是甲,所以回族人只能是乙、丁、戊、己中的一个。

2025-04-14 19:08:45 696

原创 LLM做逻辑推理题-哪一项圈出后不用找零

因此,四位中两位女性使用这两组,兩位男性也使用这两组,但题目可能不允许重复使用同样的组合,因为题目中的每个人都要带四枚硬币,所以女性A和女性B用了不同的组合,男性A和男性B也用了不同的组合,即可能四位每个人都不同的组合。因此,我们需要找到这样的两个四硬币的组合,它们的总和相同,且两组的面值没有交集。因为题目中是两男两女,所以女性需要两组不同的组合,男性也需要两组不同的组合,所以可能有女性的两组和男性的两组都需要满足这个条件,但女性的两组之间不相交,男性的两组之间不相交,但女性和男性之间可能可以共享面值?

2025-04-14 16:33:32 453

原创 LLM做逻辑推理题-她到底多大年龄?

不,因为李的说法是绝对在30岁以上,所以年龄36岁也满足李的说法,但同时赵的说法是35岁以下,所以36岁时李正确,赵错误,张、王都错误,此时只有李正确,而年龄是36岁,这时候选项B是“她的年龄在35岁以上”,即正确,所以选项B在这种情况下成立。但是当年龄是35岁时,李的说法正确,赵错误,此时正确的选项应该是李正确,但选项中并没有直接说李正确的选项,而是选项C是年龄在30-35岁之间,所以此时如果年龄35岁属于选项C,那么选项C正确,而李是正确的,但题目中说只有李正确,其他三人错误,所以选项C是否正确?

2025-04-14 10:44:01 581

原创 LLM做逻辑推理题 - 为什么小张是A队的

因此,无论小张选择问的是哪个队的人,只要他报告对方说西边,那么只有当他属于A队时才会这样,而如果是B队的话,他必须撒谎对方的回答,所以对方的真实回答要么是西边(如果问的是A队的人),此时小张撒谎会变成东边;如果小张问的是B队的人,B队的人会说假话,由于他们实际在东边,但他们会撒谎说自己不在东边,所以他们会回答西边,所以不管小张问的是A队还是B队的人,只要小张自己是A队的,他都会如实报告对方说西边,因此这个学生听到小张说对方回答西边,就可以推测小张是A队的,因为如果是B队的小张,他会撒谎对方的回答。

2025-04-14 09:15:09 796

原创 LLM做逻辑推理题 - 三人贴纸条游戏

设三个数为 \(a\)、\(b\)、\(c\),其中必须满足 \(a + b = c\)、\(a + c = b\) 或 \(b + c = a\)。但若他的数是 \(b + 144\),则 \(a = b + 144\),代入 \(a + b = 144\) 会导致 \(b = 0\)(矛盾),因此他只能是 \(144 - b\),但无法确定具体值,故摇头。- 若 \(a > b\),则 \(c = a - b\),此时 \(a = b + c = b + (a - b) = a\),恒成立。

2025-04-14 08:54:11 418

原创 LLaMA-META发布单卡就能跑的大模型

2023年2月25日,Meta使用2048张A100 GPU,花费21天训练的Transformer大模型LLaMA开源了。

2023-02-27 20:52:35 3251

原创 linux: 程序重定向没及时输出到文件

stdbuf -oL ./test>>out其中的参数,o表示输出流,L表示行缓冲。这样主要遇到换行符,就会将缓冲输出到指定对象。参考:https://blog.csdn.net/frank_liuxing/article/details/54017813

2021-06-29 16:13:50 1559

原创 知识图谱驱动对话模型的解读

最近在做知识图谱驱动的多轮对话,查了很多资料,很多方案都采用“分类+NER+图谱规则”的方式做,在特别狭窄的领域感觉还可以,但是在宽一点的领域,就感觉图谱规则特别像机器人不太自然。在看了Knowledge-driven-dialogue项目后感觉很受启发。感谢作者的方案分享,在这里记录下自己对这个项目模型的一点点小的认识,由于对专业术语掌握的不精,主要采用通俗的描述方式,可能描述不精确,大家意会就行啦。https://github.com/lihanghang/AI-Competition/tree

2021-06-24 11:16:56 801

原创 消费者需求-营销对话探索

1 U&A模型成熟的消费者研究模型。费歇宾模式,消费者对一个给定产品的态度定量评价为,该产品具有各显著特征的程度和特征的评价乘积的和。

2021-06-21 12:37:33 849

原创 AdamW随机梯度下降优化解读(备用)

Adam

2021-06-19 18:55:54 2523

原创 主动对话中冷场问题的一些思考

在营销对话系统中,当机器人助理回答万客户的问题,客户没有进一步提问或反馈时,就会陷入尴尬情景中,机器人如何抛出合理的问题,引导可以进一步提问,培养客户的信任,对机器人成功推荐出产品非常重要。...

2021-06-19 10:14:37 189

原创 pyenv 快速安装python

pyenv 快速安装 python 3.6.8v=3.6.8; curl -L https://npm.taobao.org/mirrors/python/$v/Python-$v.tar.xz -o ~/.pyenv/cache/Python-$v.tar.xz; pyenv install $vpyenv global 3.6.8

2021-03-29 10:53:05 255

原创 Unilm生成式之Attention Mask解读

生成式对话说明

2021-03-13 09:26:23 2131 6

原创 问题生成模型 - SQuAD任务启发

如何将BERT应用到生成式模型-UNILMBERT采用BiLM的方式预训练,而生成式模型一般采用Left->Right的LM的方式预训练,UNILM则在继承BERT BiLM预训练强大优势的同时,将BERT模型应用到生成式任务中,本文解读UNILM是如何实现这个目标,以及实现目标的方法和过程。UNILM:LM模型其实本质都是在训练时能获取到什么信息,在实现层面就是如何Mask的问题了,所以可以把Seq2Seq的LM方法应用到BERT中,S1[SEP]S2,S1做Encode编码用,S2做Dec

2021-01-26 15:28:01 1216

原创 对话中的NLP要素

对话由问题和回答组成,首先判断客服问题和用户回答是否契合,然后抽取必要的实体。

2020-12-18 14:02:04 430

转载 neo4j 不同实例之间数据的export和import

consider to use APOC. Here is how to use.[on export side]enable APOC(Neo4j Desktop is easy to enable) set "apoc.export.file.enabled=true" into your database config (re)start database open Neo4j...

2019-02-24 22:02:35 743

翻译 neo4j dump 和 load使用例子

dump 例子$neo4j-home&gt; bin/neo4j-admin dump --database=graph.db --to=/backups/graph.db/2016-10-02.dump$neo4j-home&gt; ls /backups/graph.db$neo4j-home&gt; 2016-10-02.dump load例子$neo4j-hom...

2019-02-24 22:02:27 3084 2

原创 neo4j apoc 设置

1 下载 neo4j apoc jar包在neo4j home目录下cd pluginswget wget https://github.com/neo4j-contrib/neo4j-apoc-procedures/releases/download/3.5.0.2/apoc-3.5.0.2-all.jarneo4j apoc jar需要根据neo4j版本进行选择 2 重...

2019-02-24 22:01:50 443

原创 neo4j restful api和py2neo driver选择

py2neo driver可能触发多次client端和server端的通信,复杂查询延迟较大,适用如下场合:1)简单的cypher查询,如单个顶点查询、一跳关联查询2)期望返回数据为node类型的多跳复杂查询,不关注查询延迟,数据可以多次分批获得 neo4j restful api查询在client和server端仅需要一次通信,适用场合如下:1)对延迟敏感的多跳复杂查询,期望...

2019-02-16 14:48:06 638

原创 neo4j community 用户管理方法

改变密码:CALL dbms.security.changePassword('123456')新增用户CALL dbms.security.createUser('johnsmith', 'h6u4%kr', false)删除用户CALL dbms.security.deleteUser('janebrown')显示所有用户CALL dbms.security...

2019-02-16 14:20:43 3048 2

原创 neo4j http api 相比 py2neo driver 运行的更快

neo4j http api:neo4j http requset 速度快1 服务端和客户端仅需一次通信:客户端将cypher命令发送给neo4j 服务端,服务端运行cypher查询,将结果返回给客户端2 cypher执行在服务端:服务端运行cypher,采用直接运行的模式,没有采用stream模式,因此cypher执行没有延迟和等待 py2neo bolt driver:...

2019-02-15 09:39:59 1146

原创 python 执行 neo4j HTTP 查询请求

Authorization 为 user@passwd 生成的字符串def http_post_test() URL = "http://localhost:7474/db/data/transaction/commit" CYPHER = "match (n:学生) where n.name = '李明' return n" data = { "s...

2019-02-14 23:19:44 1031

原创 curl 执行 neo4j HTTP 查询请求

query.json { "statements": [ { "statement": "match (n:学生) where n.name = '李明' return n", "parameters": { "decisionId": "1", &

2019-02-14 23:10:09 1761

原创 为neo4j的一个边的属性设置多个值 - 数组属性

1  设置边的数组属性CREATE (n:Person { name: 'tom', title: 'Developer' })CREATE (n:Person { name: 'john', title: 'Developer' })create (a:Person{name:"tom"})-[r:RELTYPE{rtype:["r1", "r1"]}]-&gt;(b:Person{n...

2019-02-14 11:12:42 5872

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除