自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(182)
  • 问答 (1)
  • 收藏
  • 关注

原创 逆矩阵求法及范例求解最全汇总

奇异方阵不可逆,也就是说它没有逆矩阵。它的行或列之间存在线性依赖关系(即某些行或列可以由其他行或列线性组合表示)。在线性方程组 Ax=bAx = bAx=b 中,如果 AAA 是奇异的,可能没有解或有无穷多解(取决于 bbb)。A=[1224]A = \begin{bmatrix}1 & 2 \\2 & 4\end{bmatrix}A=[12​24​]这里 det⁡(A)=1⋅4−2⋅2=4−4=0\det(A) = 1 \cdot 4 - 2 \cdot 2 = 4 - 4 = 0det(A

2025-03-13 11:16:27 306

原创 伽马函数相关知识点及其与概率论知识的结合

对于复数 $ z $(实部大于 0,即Rez0Rez0Γz∫0∞tz−1e−tdtΓz∫0∞​tz−1e−tdt这个积分在Rez0Rez0时收敛。对于其他复数值,可以通过解析延拓来定义。Γnn−1!Γnn−1Γ10!1= 1Γ10!1Γ21!1= 1Γ21!1Γ32!2= 2Γ32!2Γ43!6= 6Γ43!6。

2025-03-10 10:33:59 743

原创 Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-Modal LLM引读

从图像中提取区分对象的必要视觉信息。

2025-03-04 16:57:46 1335

原创 linux如何在某个文件夹下查看所有文件(层级只到当前文件夹的两层)并找到‘XXXX’ 这个单词

它限制在当前文件夹及其子文件夹(两层)。只列出包含'XXXXX'的文件路径。适用于大多数 Linux 系统。如果您有特定需求(比如只看文本文件、忽略大小写),告诉我,我可以进一步调整!

2025-03-04 10:48:50 926

原创 “IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models” 简读

这些模型通常采用端到端(End-to-End)的训练方式,直接从输入(图像和文本)预测最终输出,在许多任务中表现出色。例如,在视觉常识推理(Visual Commonsense Reasoning, VCR)和视觉蕴含(Visual Entailment, SNLI-VE)等任务中,端到端模型难以处理复杂的推理需求。相比之下,现有的 VLMs 缺乏这种逐步分解和推理的能力。为解决这些问题,作者提出了 IdealGPT,一个基于大语言模型(LLMs)的迭代分解框架,旨在提升 VL 推理任务的零样本性能。

2025-03-03 14:58:34 551

原创 《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》速读

由于不同数据集的规模差异巨大(从几千到几十万样本不等),简单均匀混合会导致模型对小数据集过拟合、对大数据集欠拟合。多任务学习(multitask learning)**在视觉-语言任务中的效果,证明指令调整是提升零样本泛化能力的关键。,覆盖11种任务类别,并将其转化为统一的指令调整格式。这是迄今为止视觉-语言指令调整研究中使用的最广泛的数据集集合。,通过将文本指令同时输入到Q-Former中,使其能够根据具体指令动态调整提取的视觉特征。传统的视觉-语言模型(如BLIP-2)在提取视觉特征时采用的是。

2025-03-03 14:18:16 662

原创 Flamingo: a Visual Language Model for Few-Shot Learning 简读

Flamingo 的灵感来源于此,旨在将这种能力扩展到视觉-语言任务中,使模型能够处理图像、视频和文本的混合输入,并在少样本条件下完成诸如视觉问答(visual question-answering)、图像描述(captioning)和分类等任务。然而,现有的视觉-语言模型(如基于对比学习的 CLIP)虽然在零样本(zero-shot)场景下表现不错,但只能输出图像和文本之间的相似度分数,无法生成语言,因此不适合开放式任务。在 9 个已有少样本结果的任务上,Flamingo 设定了新的少样本标准。

2025-03-03 13:07:27 1223

原创 CogVLM: Visual Expert for Pretrained Language Models 简读

其原始论文《CogVLM: Visual Expert for Pretrained Language Models》由 THUDM 团队在 2023 年 11 月发布于 arXiv。传统视觉语言模型通常使用浅层对齐方法,通过简单投影层将图像特征映射到语言模型的输入空间。这种方法可能限制了视觉和语言特征的深度融合,可能损害语言生成能力。CogVLM 通过引入视觉专家模块解决了这一问题,该模块允许在语言模型的注意力层和 FFN 层中深度融合视觉和语言特征,确保语言处理性能不受影响。CogVLM 的架构由四个主

2025-03-03 12:05:32 960

原创 支持ChatGPT与Grok的对话导出为Markdown文本的插件

这个 Chrome 插件旨在帮助用户将 ChatGPT 网站上的聊天记录导出为标准的 Markdown 格式,使其更容易阅读和编辑。

2025-03-03 09:52:41 1468

原创 如何将本地连接服务器中的文件内容复制到本机的剪贴板

在终端运行该命令就可以将文件中的内容复制到本机剪贴板了。

2025-02-24 10:55:37 502

原创 Pycharm打开的jupyter notebook无法在pycharm中关闭怎么解决

用户启动(如你的命令路径所示),可能需要。可以看到第一行有个启动命令。执行以下命令查找占用。

2025-02-18 17:27:48 357

原创 OpenCoder Data Filtering Pipeline

后续就是根据这个类型走不同的Qualit Signal实例计算过滤需要的相关属性。详细映射信息见utils/preprocessing.py的get_doc_type函数。该配置文件其实就是根据刚刚在ComputeCodeQualitySignal计算得到的相关属性的值采用一定的启发式规则进行过滤:(示例)对于code或者data类型会经过code_instances的计算,以及针对该类型代码的specific_instances的计算。(如文件名、扩展名、编程语言、文档类型等)。最终得到干净的代码数据。

2025-02-17 16:05:39 855

原创 Pycharm中连接到服务器使用jupyter运行时提示提示Running as root is not recommended. Use --allow-root to bypass.

在pycharm连接到服务器运行notebook文件时可能会遇到上述问题导致无法连接到notebook,有一些解决方案:不过我这边只需要按日志说的做就好了:1. 首先打开2. 找到:

2025-02-14 16:15:30 158

原创 OPEN CODER : THE OPEN COOKBOOK FOR TOP -TIER CODE LARGE LANGUAGE MODELS

大型语言模型(LLMs)在代码领域已经成为不可或缺的工具,包括代码生成、推理任务和代理系统等多个方面。虽然开放获取的代码LLMs的性能越来越接近专有模型,但适合严格科学研究的优质代码LLMs,特别是那些具有可复现数据处理管道和透明训练协议的模型,仍然很有限。这种稀缺性是由于各种挑战造成的,包括资源限制、伦理考虑以及保持模型先进性的竞争优势。为了填补这一空白,我们推出了Open-Coder,这是一款顶级代码LLM,其性能不仅可与领先模型相媲美,而且还是研究社区的“开放食谱”。

2025-02-13 16:53:06 1114

原创 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

由于大规模模型的端到端训练,视觉与语言预训练的成本变得越来越高昂。本文提出了BLIP-2,一种通用且高效的预训练策略,它通过冻结预训练图像编码器和冻结的大型语言模型去启动vision-language pre-training。BLIP-2通过一个轻量级Querying Transformer 来桥接模态差距,该 Transformer 在两个阶段进行预训练。第一阶段从冻结的图像编码器中启动视觉语言表征学习。第二阶段从冻结的语言模型中启动视觉到语言的生成式学习。

2025-02-10 15:15:50 950

原创 BLIP: Bootstrapping Language-Image Pre-training简读

(2)基于图像的文本编码器,它在每个文本编码器的变换器块中的自注意力(Self-Attention,SA)层和前馈网络(Feed Forward Network,FFN)之间插入一个额外的交叉注意力(Cross-Attention,CA)层,以引入视觉信息。(2)数据视角:大多数方法(例如,CLIP(Radford等人,2021年)、ALBEF(Li等人,2021a)、SimVLM(Wang等人,2021年))在从网络上收集的图像-文本对上进行预训练。(1)单模态编码器,它分别独立地编码图像和文本。

2025-02-10 13:43:02 835

原创 M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings 简读

全局语义匹配,使用单向量表示查询和文档。:词汇级别匹配,基于词权重和重叠词汇。:细粒度匹配,结合多向量表示,捕捉词与词的细节交互。

2025-01-13 11:05:13 760

原创 蓝牙键盘Alt和Fn键反了怎么处理

问了客服,这一款是三系统通用的键盘,连接后,首先按FN加 Q W E 切换到您相对应的系统(切换时不会有任何反应)之后就好了。

2025-01-09 09:44:21 333

原创 InternVL简读

VIsion model 和 LLM训练数据本身的差异性includes aand an。

2024-12-20 17:13:53 951

原创 DataComp-LM: In search of the next generation of training sets for language models

combine our results into DCLM-BASELINE, a new state-of-the-art public training set for language model,训了个模型。

2024-12-19 14:07:45 971

原创 LLAMA3,DeepSeek2,Qwen2.5评测benchmark及其相关论文简读汇总

我把详细内容开源到了这个仓库:GitHub - Marverlises/LLM_Benchmark_Research: A fully research of Llama3, Qwen2,5, Deepseek2 tech blog / paper, summarize all the benchmarks used and its corresponding paper details.

2024-12-03 09:11:00 1234

原创 LLAVA论文简记

近年来,随着,传统的视觉模型在处理这些任务时通常将语言视作对图像内容的简单描述,而。因此,本文提出通过。

2024-11-29 17:24:03 708

原创 Qwen2.5系列——大模型测评常用benchmark对应原始论文介绍(一)——通用任务

数据构建覆盖“Goldilocks Zone”,即生成的文本对人类来说荒谬但模型难以辨别。: 使用生成器(如GPT)和过滤器(如BERT)生成难以区分的错误选项。: 文本更长(平均41 tokens),增加推理的复杂性。: 涉及视频动作描述、任务步骤解析等多种情景。

2024-11-26 17:30:57 1869

原创 大模型测评常用benchmark对应原始论文介绍(六)——长上下文

是一个专门设计的基准测试,旨在评估**长上下文(Long Context)**模型在处理极大文本上下文时的能力。它通过将一个特定信息(称为“针”)嵌入到长文档中(称为“草堆”),测试模型是否能准确检索出该信息。此测试能够帮助评估长上下文模型(如GPT-4 128K、Claude 2.1)在实际应用场景中的性能。

2024-11-26 09:47:39 1024

原创 大模型测评常用benchmark对应原始论文介绍(五)——工具调用

的基准测试框架,用于评估大型语言模型(LLMs)在工具增强场景下的能力。研究目标是通过引入一个具有高多样性和真实性的评估系统,全面测试和提高模型在调用API工具上的性能。:随着AI的发展,能够调用软件工具的语言模型(如API函数调用)成为了重要的研究方向。每种能力对应不同的使用场景,例如单一API调用、多步骤任务或复杂计划。为了解决人工注释成本高的问题,作者提出了一个。

2024-11-25 17:49:51 1433

原创 大模型测评常用benchmark对应原始论文介绍(四)——多语言能力

文章提出了一个新的基准——,专门用于评估多语言数学推理能力。

2024-11-25 16:37:04 1040

原创 大模型测评常用benchmark对应原始论文介绍(三)——代码能力

研究的重点是现有基准(HUMANEVAL)在测试充分性上的不足,以及EvalPlus在生成高质量测试用例以捕获更多错误代码上的改进能力。传统的程序合成多基于有限的领域特定语言(DSL),而这项研究探索了LLMs在通用编程语言中的潜力。的框架,专注于多编程语言代码生成模型的评估,探索了如何将现有的Python代码生成基准扩展到其他18种编程语言,从而创建了首个大规模并行多语言代码生成基准。作者提出并评估了两个新的基准数据集,并探讨了模型在不同规模、提示和微调设置下的性能。

2024-11-25 16:30:36 1223

原创 大模型测评常用benchmark对应原始论文介绍(二)——数学和推理

随着大型语言模型(LLMs)的发展,其在复杂推理任务中的潜力逐渐显现。然而,在处理需要高度专业化知识的问题时,AI模型的准确性和可靠性仍然是一个挑战。当前的许多问答任务数据集(如SQuAD或SNLI)主要依赖于检索任务,模型可以通过表面级信息(如关键词匹配)来找到答案。ARC的目标是挑战现有的语言模型,使其需要更强的知识推理能力,而不仅仅依赖表面信息。因此,作者引入了MATH数据集,旨在通过具有挑战性的数学问题评估模型的推理能力。因此,作者提出通过训练验证器来对模型生成的答案进行评估,并选择最优解。

2024-11-25 16:02:42 1277

原创 大模型测评常用benchmark对应原始论文介绍(一)——通用能力

该基准测试涵盖57个学科领域,包括STEM、人文学科和社会科学,旨在评估模型在零样本和少样本设置下的知识和推理能力。覆盖57种任务的大型多任务测试。每个任务根据学科和难度级别分类,例如高中、大学或专业水平。

2024-11-25 15:56:47 932

原创 什么是信息熵,什么是交叉熵,什么是KL散度?

给定一个离散的随机变量XXX,它有nnn个可能的取值(x1x2xnx1​x2​xn​),每个取值的概率分别为px1px2pxnpx1​px2​pxn​。则信息熵HXH(X)HXHX−∑i1npxilog⁡2pxiHX−i1∑n​pxi​log2​pxi​pxip(x_i)pxi​表示事件xix_ixi​发生的概率。log。

2024-10-26 17:45:21 1644

原创 配置Grounded-Segment-Anything出现_C not defined 或者 运行时expected type half问题(亲测解决)

再运行时如果有FP16_INFERENCE = True,就把它设置为False。

2024-09-16 15:17:38 395

原创 最新安装vmware地址(官网找半天没找到)

直接走这个点进去,windows点ws,linux和mac点fusion进去下对应版本。

2024-09-16 12:05:43 573

原创 多层感知机 (Multilayer Perceptron, MLP)

通过将输入逐层转换,加权求和并非线性化,可以让多层感知机学习到数据的复杂模式。反向传播算法是优化参数的核心,通过梯度下降调整权重以降低损失函数值。

2024-09-14 20:51:55 5027

原创 什么是上采样什么是下采样

上采样:增加数据点的数量或增加数据分辨率。下采样:减少数据点的数量或降低数据分辨率。其实也可以理解为下采样就是将信息进行压缩的一个过程,而上采样就是将压缩的信息尝试将它恢复为原始更详细信息的过程。

2024-09-14 20:48:13 995

原创 感知机 (Perceptron)

感知机是一种用于二分类问题的简单线性分类算法。可以把它想象成试图找到一个超平面来把数据点分成两类。

2024-09-13 12:29:15 1131

原创 线性判别分析 (Linear Discriminant Analysis, LDA)

LDA的目标是投影数据,使得同一类别的样本在投影后尽可能接近,而不同类别的样本尽可能分开。它通过分析数据的类内和类间散布来实现这一目标,是一种有效的线性分类和降维工具。线性判别分析通过最大化类间散度和最小化类内散度使不同类别的数据在低维空间中能够更好地分开,是一种经典的降维和分类方法。它所依赖的数学基础是关于矩阵的散布度量以及特征值问题的求解。LDA 试图在保留数据集的判别信息的同时减少数据的维度。最大化类间方差(Between-class variance):使不同类之间的中心距离尽可能大。

2024-09-13 12:25:44 1068

原创 朴素贝叶斯 (Naive Bayes)

朴素贝叶斯算法尽管假设特征独立,但在许多实际应用中表现良好。其简洁、有效的特性在文本分类、垃圾邮件过滤和推荐系统等多个领域中得到广泛应用。

2024-09-12 07:41:03 1146

原创 梯度提升机 (Gradient Boosting Machines, GBM)

梯度提升机(Gradient Boosting Machines,GBM)是一种集成学习算法,主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型(通常是决策树),然后将这些模型组合起来,从而提高整体预测性能。

2024-09-12 07:25:17 1871

原创 随机森林 (Random Forest)

随机森林(Random Forest)是一种集成机器学习算法,它用于分类和回归。它通过结合多个决策树(Decision Trees)的预测结果来提高模型的准确性和稳健性。以下是随机森林的基本概念和工作原理,采用通俗易懂的方式来讲解。

2024-09-11 07:26:39 2628

原创 大语言模型(LLM)与多模态大模型(MLLM)结合行人重识别(Reid)领域最新文献方法调研

这篇论文主要研究文本基础的人员检索(Text-based Person Retrieval, TPR)任务中的数据扩充问题,并提出了一种基于大语言模型(Large Language Models, LLM)的数据增强方法(LLM-DA)来解决该问题。

2024-09-11 07:20:14 2467

计算机体系结构课程报告-摩尔定律的过去,现在与未来

一个关于计算机体系结构的课程报告,详细讲述了摩尔定律从诞生至今的发展以及以后的走向。随着时代的发展与信息技术的飞速进步,我们面临着越来越庞大的数据规模,这对计算机性能提出了更高的要求。计算机体系结构 (Computer Architecture) 作为程序员所看到的计算机属性,描述了计算机各组成部分及其相互关系的一组规则和方法。所有的计算机,无论大小,都是基于一套规则,说明软件和硬件如何结合在一起并相互作用以使其工作,不同的规则又往往会带来不同的性能,因此计算机体系结构在提升计算机的性能方面起着至关重要的作用。 在学习计算机体系结构的过程中,抓住课程的核心思想往往能够促进对各个知识点的理解,当能够深入理解计算机体系结构的核心思想后,相关的知识便也能够融会贯通。而摩尔定律作为计算机体系结构范围公认的八个伟大想法的第一条,基本涵盖了计算机体系结构从诞生至今的发展变化,具有极强的指导意义。 因此本文将以摩尔定律为切入点,从摩尔定律的提出到该定律在当前时间段的影响以及今后的发展展望进行论述。

2023-04-29

一个后端静态资源模板,快速搭建网页的必备

后端静态资源模板的主要功能包括以下几个方面: 变量替换:模板引擎可以将模板中的变量替换为具体的数值或字符串。这使得在生成 HTML 页面时可以动态地插入数据,从而实现个性化的页面展示。 条件语句:模板引擎可以根据条件语句来判断是否显示某些内容。例如,可以使用 if 语句来判断用户是否已登录,如果已登录则显示欢迎信息,否则显示登录链接。 循环语句:模板引擎可以根据循环语句来重复显示某些内容。例如,可以使用 for 语句来显示一个列表中的所有项。 继承和包含:模板引擎可以使用继承和包含机制来实现页面布局的复用。例如,可以定义一个基础布局模板,然后在其他页面中继承该模板并重写其中的一些部分,从而实现页面布局的统一和复用。 过滤器:模板引擎可以使用过滤器来对变量进行处理。例如,可以使用 date 过滤器来将日期格式化为特定的字符串。 自定义标签和函数:模板引擎可以使用自定义标签和函数来扩展其功能。例如,可以定义一个自定义标签来生成特定的 HTML 代码,或者定义一个自定义函数来对数据进行处理。

2023-04-06

HFUT计网试卷需要的可以下载

该试卷是HFUT的历年的计网试卷,低调

2023-03-31

HFUT计网1000页PPT复习资料

资源好不好自己下载才知道,1000页ppt我汇总了很长时间,最后把这些做成一个思维导图,这样看起来思维脉络十分清晰,看起来会非常有帮助。尤其是对于复习的时候,是非常好的资源。资源总共分为七章,每一章我都做成了PDF,有本校的同学不管是复习不知道从何处着手或者是不知道怎么学计算机网络的都可以来下载这个资源看一看,本来是想设置成付费资源的,毕竟画了很多工夫,但现在不能上传付费资源了,所以就想着就这样先发出来吧!

2023-03-31

Zotero链接infini-cloud

2024-07-25

windows11删除快捷键设置

2024-07-02

windows用户文件夹消失

2024-06-27

基于文本描述的跨模态行人重识别模型训练异常

2024-05-24

日志训练过程中缺失但还能正常运行

2024-04-22

chatgpt公式复制到typora

2024-02-07

chatgpt出现parseerror katex parse error

2024-02-04

edge浏览器无法搜索

2023-08-21

采用JDBC+druid数据库连接池出现异常

2023-06-19

ppt无法加载AxGlyph.ppam

2023-04-14

CLion exit code -1073740940 (0xC0000374)CLion程序异常停止,想问问是什么原因

2023-03-31

Navicat中MongoDB如何将时间按照升序排序?

2023-03-12

从零开始的操作系统没有编译器如何编译代码成机器码执行

2023-01-21

windows c语言创建线程

2023-01-16

win10弹出edgeupdater

2023-01-04

sqlServer主键设置

2023-01-03

windows10弹出edgetaskUpdater

2023-01-03

.net在导入system.web时找不到

2023-01-01

verilog设计cpu时什么情况下才需要输入时钟

2022-12-22

ML-Agents生成的环境如何对接自己的python代码

2022-11-19

ML-agents如何生成可以交互的exe文件

2022-11-19

Windows系统的快捷方式底层是包含哪些部分?

2022-11-16

Anaconda更新out of memory

2022-11-15

MIPS为什么要设置I,J,R三种指令结构

2022-11-15

Latex伪代码对齐

2022-11-12

由于找不到libgcc_s_sjlj-1.dll

2022-11-08

paddle强化学习

2022-11-07

pycharm跳出modify setup

2022-11-06

3dmax删除不了物体

2022-10-06

对于wor中的表格绘制方法

2022-09-16

matlab三维散点图的绘制

2022-09-16

TeXStudio出现问题

2022-09-14

TeXStudio运行提示Could not start Default

2022-09-14

pandas处理有条件的合并

2022-09-01

关于dataframe.max()出现Series([], dtype: float64)

2022-08-29

德鲁伊连接池报错,更改MySQL驱动后无效

2022-08-15

scrapy部署在服务器运行一段时间出现ERROR: Error downloading

2022-08-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除