- 博客(182)
- 问答 (1)
- 收藏
- 关注
原创 逆矩阵求法及范例求解最全汇总
奇异方阵不可逆,也就是说它没有逆矩阵。它的行或列之间存在线性依赖关系(即某些行或列可以由其他行或列线性组合表示)。在线性方程组 Ax=bAx = bAx=b 中,如果 AAA 是奇异的,可能没有解或有无穷多解(取决于 bbb)。A=[1224]A = \begin{bmatrix}1 & 2 \\2 & 4\end{bmatrix}A=[1224]这里 det(A)=1⋅4−2⋅2=4−4=0\det(A) = 1 \cdot 4 - 2 \cdot 2 = 4 - 4 = 0det(A
2025-03-13 11:16:27
306
原创 伽马函数相关知识点及其与概率论知识的结合
对于复数 $ z $(实部大于 0,即Rez0Rez0Γz∫0∞tz−1e−tdtΓz∫0∞tz−1e−tdt这个积分在Rez0Rez0时收敛。对于其他复数值,可以通过解析延拓来定义。Γnn−1!Γnn−1Γ10!1= 1Γ10!1Γ21!1= 1Γ21!1Γ32!2= 2Γ32!2Γ43!6= 6Γ43!6。
2025-03-10 10:33:59
743
原创 Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-Modal LLM引读
从图像中提取区分对象的必要视觉信息。
2025-03-04 16:57:46
1335
原创 linux如何在某个文件夹下查看所有文件(层级只到当前文件夹的两层)并找到‘XXXX’ 这个单词
它限制在当前文件夹及其子文件夹(两层)。只列出包含'XXXXX'的文件路径。适用于大多数 Linux 系统。如果您有特定需求(比如只看文本文件、忽略大小写),告诉我,我可以进一步调整!
2025-03-04 10:48:50
926
原创 “IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models” 简读
这些模型通常采用端到端(End-to-End)的训练方式,直接从输入(图像和文本)预测最终输出,在许多任务中表现出色。例如,在视觉常识推理(Visual Commonsense Reasoning, VCR)和视觉蕴含(Visual Entailment, SNLI-VE)等任务中,端到端模型难以处理复杂的推理需求。相比之下,现有的 VLMs 缺乏这种逐步分解和推理的能力。为解决这些问题,作者提出了 IdealGPT,一个基于大语言模型(LLMs)的迭代分解框架,旨在提升 VL 推理任务的零样本性能。
2025-03-03 14:58:34
551
原创 《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》速读
由于不同数据集的规模差异巨大(从几千到几十万样本不等),简单均匀混合会导致模型对小数据集过拟合、对大数据集欠拟合。多任务学习(multitask learning)**在视觉-语言任务中的效果,证明指令调整是提升零样本泛化能力的关键。,覆盖11种任务类别,并将其转化为统一的指令调整格式。这是迄今为止视觉-语言指令调整研究中使用的最广泛的数据集集合。,通过将文本指令同时输入到Q-Former中,使其能够根据具体指令动态调整提取的视觉特征。传统的视觉-语言模型(如BLIP-2)在提取视觉特征时采用的是。
2025-03-03 14:18:16
662
原创 Flamingo: a Visual Language Model for Few-Shot Learning 简读
Flamingo 的灵感来源于此,旨在将这种能力扩展到视觉-语言任务中,使模型能够处理图像、视频和文本的混合输入,并在少样本条件下完成诸如视觉问答(visual question-answering)、图像描述(captioning)和分类等任务。然而,现有的视觉-语言模型(如基于对比学习的 CLIP)虽然在零样本(zero-shot)场景下表现不错,但只能输出图像和文本之间的相似度分数,无法生成语言,因此不适合开放式任务。在 9 个已有少样本结果的任务上,Flamingo 设定了新的少样本标准。
2025-03-03 13:07:27
1223
原创 CogVLM: Visual Expert for Pretrained Language Models 简读
其原始论文《CogVLM: Visual Expert for Pretrained Language Models》由 THUDM 团队在 2023 年 11 月发布于 arXiv。传统视觉语言模型通常使用浅层对齐方法,通过简单投影层将图像特征映射到语言模型的输入空间。这种方法可能限制了视觉和语言特征的深度融合,可能损害语言生成能力。CogVLM 通过引入视觉专家模块解决了这一问题,该模块允许在语言模型的注意力层和 FFN 层中深度融合视觉和语言特征,确保语言处理性能不受影响。CogVLM 的架构由四个主
2025-03-03 12:05:32
960
原创 支持ChatGPT与Grok的对话导出为Markdown文本的插件
这个 Chrome 插件旨在帮助用户将 ChatGPT 网站上的聊天记录导出为标准的 Markdown 格式,使其更容易阅读和编辑。
2025-03-03 09:52:41
1468
原创 Pycharm打开的jupyter notebook无法在pycharm中关闭怎么解决
用户启动(如你的命令路径所示),可能需要。可以看到第一行有个启动命令。执行以下命令查找占用。
2025-02-18 17:27:48
357
原创 OpenCoder Data Filtering Pipeline
后续就是根据这个类型走不同的Qualit Signal实例计算过滤需要的相关属性。详细映射信息见utils/preprocessing.py的get_doc_type函数。该配置文件其实就是根据刚刚在ComputeCodeQualitySignal计算得到的相关属性的值采用一定的启发式规则进行过滤:(示例)对于code或者data类型会经过code_instances的计算,以及针对该类型代码的specific_instances的计算。(如文件名、扩展名、编程语言、文档类型等)。最终得到干净的代码数据。
2025-02-17 16:05:39
855
原创 Pycharm中连接到服务器使用jupyter运行时提示提示Running as root is not recommended. Use --allow-root to bypass.
在pycharm连接到服务器运行notebook文件时可能会遇到上述问题导致无法连接到notebook,有一些解决方案:不过我这边只需要按日志说的做就好了:1. 首先打开2. 找到:
2025-02-14 16:15:30
158
原创 OPEN CODER : THE OPEN COOKBOOK FOR TOP -TIER CODE LARGE LANGUAGE MODELS
大型语言模型(LLMs)在代码领域已经成为不可或缺的工具,包括代码生成、推理任务和代理系统等多个方面。虽然开放获取的代码LLMs的性能越来越接近专有模型,但适合严格科学研究的优质代码LLMs,特别是那些具有可复现数据处理管道和透明训练协议的模型,仍然很有限。这种稀缺性是由于各种挑战造成的,包括资源限制、伦理考虑以及保持模型先进性的竞争优势。为了填补这一空白,我们推出了Open-Coder,这是一款顶级代码LLM,其性能不仅可与领先模型相媲美,而且还是研究社区的“开放食谱”。
2025-02-13 16:53:06
1114
原创 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode
由于大规模模型的端到端训练,视觉与语言预训练的成本变得越来越高昂。本文提出了BLIP-2,一种通用且高效的预训练策略,它通过冻结预训练图像编码器和冻结的大型语言模型去启动vision-language pre-training。BLIP-2通过一个轻量级Querying Transformer 来桥接模态差距,该 Transformer 在两个阶段进行预训练。第一阶段从冻结的图像编码器中启动视觉语言表征学习。第二阶段从冻结的语言模型中启动视觉到语言的生成式学习。
2025-02-10 15:15:50
950
原创 BLIP: Bootstrapping Language-Image Pre-training简读
(2)基于图像的文本编码器,它在每个文本编码器的变换器块中的自注意力(Self-Attention,SA)层和前馈网络(Feed Forward Network,FFN)之间插入一个额外的交叉注意力(Cross-Attention,CA)层,以引入视觉信息。(2)数据视角:大多数方法(例如,CLIP(Radford等人,2021年)、ALBEF(Li等人,2021a)、SimVLM(Wang等人,2021年))在从网络上收集的图像-文本对上进行预训练。(1)单模态编码器,它分别独立地编码图像和文本。
2025-02-10 13:43:02
835
原创 M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings 简读
全局语义匹配,使用单向量表示查询和文档。:词汇级别匹配,基于词权重和重叠词汇。:细粒度匹配,结合多向量表示,捕捉词与词的细节交互。
2025-01-13 11:05:13
760
原创 蓝牙键盘Alt和Fn键反了怎么处理
问了客服,这一款是三系统通用的键盘,连接后,首先按FN加 Q W E 切换到您相对应的系统(切换时不会有任何反应)之后就好了。
2025-01-09 09:44:21
333
原创 DataComp-LM: In search of the next generation of training sets for language models
combine our results into DCLM-BASELINE, a new state-of-the-art public training set for language model,训了个模型。
2024-12-19 14:07:45
971
原创 LLAMA3,DeepSeek2,Qwen2.5评测benchmark及其相关论文简读汇总
我把详细内容开源到了这个仓库:GitHub - Marverlises/LLM_Benchmark_Research: A fully research of Llama3, Qwen2,5, Deepseek2 tech blog / paper, summarize all the benchmarks used and its corresponding paper details.
2024-12-03 09:11:00
1234
原创 Qwen2.5系列——大模型测评常用benchmark对应原始论文介绍(一)——通用任务
数据构建覆盖“Goldilocks Zone”,即生成的文本对人类来说荒谬但模型难以辨别。: 使用生成器(如GPT)和过滤器(如BERT)生成难以区分的错误选项。: 文本更长(平均41 tokens),增加推理的复杂性。: 涉及视频动作描述、任务步骤解析等多种情景。
2024-11-26 17:30:57
1869
原创 大模型测评常用benchmark对应原始论文介绍(六)——长上下文
是一个专门设计的基准测试,旨在评估**长上下文(Long Context)**模型在处理极大文本上下文时的能力。它通过将一个特定信息(称为“针”)嵌入到长文档中(称为“草堆”),测试模型是否能准确检索出该信息。此测试能够帮助评估长上下文模型(如GPT-4 128K、Claude 2.1)在实际应用场景中的性能。
2024-11-26 09:47:39
1024
原创 大模型测评常用benchmark对应原始论文介绍(五)——工具调用
的基准测试框架,用于评估大型语言模型(LLMs)在工具增强场景下的能力。研究目标是通过引入一个具有高多样性和真实性的评估系统,全面测试和提高模型在调用API工具上的性能。:随着AI的发展,能够调用软件工具的语言模型(如API函数调用)成为了重要的研究方向。每种能力对应不同的使用场景,例如单一API调用、多步骤任务或复杂计划。为了解决人工注释成本高的问题,作者提出了一个。
2024-11-25 17:49:51
1433
原创 大模型测评常用benchmark对应原始论文介绍(三)——代码能力
研究的重点是现有基准(HUMANEVAL)在测试充分性上的不足,以及EvalPlus在生成高质量测试用例以捕获更多错误代码上的改进能力。传统的程序合成多基于有限的领域特定语言(DSL),而这项研究探索了LLMs在通用编程语言中的潜力。的框架,专注于多编程语言代码生成模型的评估,探索了如何将现有的Python代码生成基准扩展到其他18种编程语言,从而创建了首个大规模并行多语言代码生成基准。作者提出并评估了两个新的基准数据集,并探讨了模型在不同规模、提示和微调设置下的性能。
2024-11-25 16:30:36
1223
原创 大模型测评常用benchmark对应原始论文介绍(二)——数学和推理
随着大型语言模型(LLMs)的发展,其在复杂推理任务中的潜力逐渐显现。然而,在处理需要高度专业化知识的问题时,AI模型的准确性和可靠性仍然是一个挑战。当前的许多问答任务数据集(如SQuAD或SNLI)主要依赖于检索任务,模型可以通过表面级信息(如关键词匹配)来找到答案。ARC的目标是挑战现有的语言模型,使其需要更强的知识推理能力,而不仅仅依赖表面信息。因此,作者引入了MATH数据集,旨在通过具有挑战性的数学问题评估模型的推理能力。因此,作者提出通过训练验证器来对模型生成的答案进行评估,并选择最优解。
2024-11-25 16:02:42
1277
原创 大模型测评常用benchmark对应原始论文介绍(一)——通用能力
该基准测试涵盖57个学科领域,包括STEM、人文学科和社会科学,旨在评估模型在零样本和少样本设置下的知识和推理能力。覆盖57种任务的大型多任务测试。每个任务根据学科和难度级别分类,例如高中、大学或专业水平。
2024-11-25 15:56:47
932
原创 什么是信息熵,什么是交叉熵,什么是KL散度?
给定一个离散的随机变量XXX,它有nnn个可能的取值(x1x2xnx1x2xn),每个取值的概率分别为px1px2pxnpx1px2pxn。则信息熵HXH(X)HXHX−∑i1npxilog2pxiHX−i1∑npxilog2pxipxip(x_i)pxi表示事件xix_ixi发生的概率。log。
2024-10-26 17:45:21
1644
原创 配置Grounded-Segment-Anything出现_C not defined 或者 运行时expected type half问题(亲测解决)
再运行时如果有FP16_INFERENCE = True,就把它设置为False。
2024-09-16 15:17:38
395
原创 多层感知机 (Multilayer Perceptron, MLP)
通过将输入逐层转换,加权求和并非线性化,可以让多层感知机学习到数据的复杂模式。反向传播算法是优化参数的核心,通过梯度下降调整权重以降低损失函数值。
2024-09-14 20:51:55
5027
原创 什么是上采样什么是下采样
上采样:增加数据点的数量或增加数据分辨率。下采样:减少数据点的数量或降低数据分辨率。其实也可以理解为下采样就是将信息进行压缩的一个过程,而上采样就是将压缩的信息尝试将它恢复为原始更详细信息的过程。
2024-09-14 20:48:13
995
原创 线性判别分析 (Linear Discriminant Analysis, LDA)
LDA的目标是投影数据,使得同一类别的样本在投影后尽可能接近,而不同类别的样本尽可能分开。它通过分析数据的类内和类间散布来实现这一目标,是一种有效的线性分类和降维工具。线性判别分析通过最大化类间散度和最小化类内散度使不同类别的数据在低维空间中能够更好地分开,是一种经典的降维和分类方法。它所依赖的数学基础是关于矩阵的散布度量以及特征值问题的求解。LDA 试图在保留数据集的判别信息的同时减少数据的维度。最大化类间方差(Between-class variance):使不同类之间的中心距离尽可能大。
2024-09-13 12:25:44
1068
原创 朴素贝叶斯 (Naive Bayes)
朴素贝叶斯算法尽管假设特征独立,但在许多实际应用中表现良好。其简洁、有效的特性在文本分类、垃圾邮件过滤和推荐系统等多个领域中得到广泛应用。
2024-09-12 07:41:03
1146
原创 梯度提升机 (Gradient Boosting Machines, GBM)
梯度提升机(Gradient Boosting Machines,GBM)是一种集成学习算法,主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型(通常是决策树),然后将这些模型组合起来,从而提高整体预测性能。
2024-09-12 07:25:17
1871
原创 随机森林 (Random Forest)
随机森林(Random Forest)是一种集成机器学习算法,它用于分类和回归。它通过结合多个决策树(Decision Trees)的预测结果来提高模型的准确性和稳健性。以下是随机森林的基本概念和工作原理,采用通俗易懂的方式来讲解。
2024-09-11 07:26:39
2628
原创 大语言模型(LLM)与多模态大模型(MLLM)结合行人重识别(Reid)领域最新文献方法调研
这篇论文主要研究文本基础的人员检索(Text-based Person Retrieval, TPR)任务中的数据扩充问题,并提出了一种基于大语言模型(Large Language Models, LLM)的数据增强方法(LLM-DA)来解决该问题。
2024-09-11 07:20:14
2467
计算机体系结构课程报告-摩尔定律的过去,现在与未来
2023-04-29
一个后端静态资源模板,快速搭建网页的必备
2023-04-06
HFUT计网1000页PPT复习资料
2023-03-31
Zotero链接infini-cloud
2024-07-25
windows11删除快捷键设置
2024-07-02
windows用户文件夹消失
2024-06-27
基于文本描述的跨模态行人重识别模型训练异常
2024-05-24
日志训练过程中缺失但还能正常运行
2024-04-22
chatgpt公式复制到typora
2024-02-07
chatgpt出现parseerror katex parse error
2024-02-04
edge浏览器无法搜索
2023-08-21
采用JDBC+druid数据库连接池出现异常
2023-06-19
ppt无法加载AxGlyph.ppam
2023-04-14
Navicat中MongoDB如何将时间按照升序排序?
2023-03-12
从零开始的操作系统没有编译器如何编译代码成机器码执行
2023-01-21
windows c语言创建线程
2023-01-16
win10弹出edgeupdater
2023-01-04
sqlServer主键设置
2023-01-03
windows10弹出edgetaskUpdater
2023-01-03
.net在导入system.web时找不到
2023-01-01
verilog设计cpu时什么情况下才需要输入时钟
2022-12-22
ML-Agents生成的环境如何对接自己的python代码
2022-11-19
ML-agents如何生成可以交互的exe文件
2022-11-19
Windows系统的快捷方式底层是包含哪些部分?
2022-11-16
Anaconda更新out of memory
2022-11-15
MIPS为什么要设置I,J,R三种指令结构
2022-11-15
Latex伪代码对齐
2022-11-12
由于找不到libgcc_s_sjlj-1.dll
2022-11-08
paddle强化学习
2022-11-07
pycharm跳出modify setup
2022-11-06
3dmax删除不了物体
2022-10-06
对于wor中的表格绘制方法
2022-09-16
matlab三维散点图的绘制
2022-09-16
TeXStudio出现问题
2022-09-14
TeXStudio运行提示Could not start Default
2022-09-14
pandas处理有条件的合并
2022-09-01
德鲁伊连接池报错,更改MySQL驱动后无效
2022-08-15
scrapy部署在服务器运行一段时间出现ERROR: Error downloading
2022-08-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人