
大模型知识札记
文章平均质量分 90
大模型学习过程中的知识整理、札记.
魔王阿卡纳兹
喜欢烟雨江南的书!
展开
-
如何利用大模型对文章进行分段,提高向量搜索的准确性?
本文系统性地探讨了利用大模型对文章进行分段以提高向量搜索准确性的解决方案。核心原则包括语义完整性优先、动态分块长度控制和重叠机制设计。主流分块方法如递归字符切分、语义分块、命题分块等,各有其适用场景。提升向量表征质量的关键技术包括分块预处理优化、向量表示增强和混合检索策略。实验验证了分块长度、动态分块效果和重叠率的影响。高级分块技术如LLM增强方案,通过内容转折点识别和分块质量评估进一步提升效果。工程实践建议分阶段实施和监控迭代。未来发展方向包括多模态分块、实时自适应分块和量子化分块嵌入。通过灵活选择分块策原创 2025-05-14 22:46:21 · 811 阅读 · 0 评论 -
在RAG中 如何提高向量搜索的准确性?
提高向量搜索的准确性需要系统化工程实践:从数据源头保障质量,选择适配的嵌入模型,优化相似度算法与索引结构,并通过重排序机制细化结果。例如,在医疗问答系统中,可结合BioBERT生成向量、HNSW实现高效检索,再通过GPT-4重排序排除无关文献,最终生成精准答案。未来,随着多模态模型与量子化技术的发展,RAG的检索精度与效率将进一步提升。原创 2025-05-14 22:27:39 · 1081 阅读 · 0 评论 -
大模型剪枝技术介绍
大模型剪枝技术通过结构化与非结构化方法,在模型压缩与效率提升间取得平衡,已成为AI部署的关键技术。未来,随着半结构化剪枝、自动化策略及硬件协同优化的深入,剪枝技术将进一步推动大模型在边缘计算、实时系统等场景的落地应用。原创 2025-05-12 23:54:52 · 1012 阅读 · 0 评论 -
大模型的Lora如何训练?
LoRA通过低秩适配实现大模型高效微调,其核心在于数据质量、参数调优及正则化策略。推荐使用Kohya_ss或PEFT库,结合动态学习率与数据增强,平衡泛化性与还原性。未来可探索混合专家系统(MoE)与自动化超参数优化,进一步提升LoRA的适应能力。原创 2025-05-12 23:54:00 · 885 阅读 · 0 评论 -
LoRA(Low-Rank Adaptation)原理详解
LoRA通过低秩分解和旁路注入机制,以极低参数量实现大模型的高效微调,平衡了性能、效率与灵活性。其变体技术持续推动PEFT领域发展,成为AI普惠化的重要工具。对于资源受限场景和多任务需求,LoRA提供了近乎理想的解决方案,但其参数调优和理论解释仍是未来研究重点。原创 2025-05-11 23:32:27 · 1229 阅读 · 0 评论 -
模型欠拟合是什么?
欠拟合是模型学习中“学不会”的典型问题,其核心在于模型能力与数据复杂度不匹配。解决策略需围绕提升模型表达能力、优化特征空间、调整训练参数展开。实践中需结合误差分析、可视化工具和领域知识,在模型复杂度和泛化能力间找到平衡点。原创 2025-05-11 23:30:27 · 837 阅读 · 0 评论 -
模型过拟合是什么?
过拟合是模型能力与数据规律不匹配的典型表现,解决核心在于平衡模型复杂性与数据信息量。通过正则化、数据增强及训练策略优化,可有效提升泛化性能。实践中需结合具体场景选择方法,例如小数据场景优先采用正则化,而高噪声数据需加强清洗与鲁棒性设计。原创 2025-05-11 23:29:26 · 516 阅读 · 0 评论 -
什么是卷积神经网络
CNN通过仿生学机制和数学优化,成为图像处理领域的核心工具,并逐步扩展至NLP、语音等跨领域任务。其核心思想——局部感知、权值共享与层次化特征提取——为深度学习的发展提供了重要范式。随着计算硬件的进步和算法的创新,CNN仍将在更多复杂场景中展现潜力。原创 2025-05-11 23:28:06 · 1054 阅读 · 0 评论 -
什么是深度神经网络
深度神经网络通过多层次的非线性变换和自动化特征学习,在多个领域实现了革命性突破。其核心技术包括反向传播、激活函数和正则化方法,而结构设计(如CNN、ResNet)和优化算法(如Adam)的进步进一步释放了模型潜力。尽管面临可解释性、计算成本等挑战,随着多模态融合、轻量化设计和新型硬件的发展,DNN将继续推动人工智能的边界,深刻影响科技与社会的发展。原创 2025-05-11 23:27:05 · 1221 阅读 · 0 评论 -
深度解析大模型学习率:优化策略与挑战
学习率(Learning Rate)是深度学习中至关重要的超参数,尤其在训练大规模语言模型(LLMs)时,其设置直接影响模型的收敛速度、训练稳定性及最终性能。学习率控制参数更新的步长,过大可能导致震荡或不收敛,过小则收敛缓慢。大模型训练中,学习率面临梯度噪声、浪涌现象等挑战,需结合预热、衰减等策略进行优化。预热缓解初期梯度不稳定,衰减则平滑调整学习率。此外,学习率与批量大小、权重衰减等参数协同作用,共同提升模型性能。未来,自动化调参和理论突破将进一步优化学习率在大模型中的应用。原创 2025-05-11 23:21:47 · 702 阅读 · 0 评论 -
大模型都有哪些超参数
大模型的超参数设置对其训练效果、性能和泛化能力至关重要,主要分为以下几类: 训练过程相关超参数:包括学习率、批量大小和训练轮数,需根据任务和硬件资源动态调整,如使用自适应优化器或早停法。 模型结构相关超参数:如网络深度、神经元数量、注意力头数和补丁大小,需结合任务复杂度优化,避免过拟合或欠拟合。 正则化与优化器相关超参数:如L1/L2系数、Dropout率和优化器类型,需通过实验确定最佳配置。 其他关键超参数:如激活函数、初始化方法和嵌入维度,需根据任务类型选择。 超参数优化方法:包括自动化搜索(网格搜索、原创 2025-05-11 23:20:24 · 664 阅读 · 0 评论 -
常用的rerank模型有哪些?都有什么优势?
重排序(Rerank)模型在信息检索、推荐系统等场景中至关重要,通过优化初步检索结果提升相关性。主流Rerank模型包括:1)基于大语言模型(LLM)的模型,如RankGPT系列,具有高语义理解能力和零样本泛化性,但计算成本高;2)经典模型,如RankNet和LambdaMART,计算效率高且可解释性强,但依赖手工特征工程;3)列表式模型,如ListT5,全局优化能力强,但长文档处理效率较低;4)点式模型,如MonoT5,简单高效,但忽略文档间依赖关系;5)跨语言模型,如BGE-Ranker,支持多语言任务原创 2025-05-11 23:16:10 · 533 阅读 · 0 评论 -
大模型应用中常说的Rerank是什么技术?
Rerank(重排序)技术通过二次评估和排序候选文档,优化信息检索系统的结果相关性和准确性。其两阶段机制包括初步检索和重排序,利用交叉编码和动态评分机制提升语义理解。广泛应用于搜索引擎、推荐系统、问答系统等领域,显著提升精度和灵活性。尽管面临计算开销和过拟合风险等挑战,Rerank技术在电商、医疗和法律等实际应用中已取得显著成效。未来发展方向包括轻量化部署、多目标优化和端到端训练,以进一步平衡效率与精度,推动AI应用的落地。原创 2025-05-11 23:15:04 · 944 阅读 · 0 评论 -
大模型的超参数Top P是什么 ?有什么用?
Top-P(又称核心采样或累积概率阈值采样)是一种控制大语言模型(LLM)输出随机性的超参数,其核心在于动态调整候选词的选择范围。具体而言,Top-P通过设定一个累积概率阈值(范围0.0-1.0),筛选出概率从高到低排列的候选词,直到这些词的累积概率之和达到或超过阈值,最终仅从该子集中随机抽取下一个词。工作流程概率计算:模型预测所有候选词的概率分布。排序与累积:将候选词按概率降序排列,并累加概率值。阈值截断:当累积概率首次超过设定的Top-P值时停止,保留当前子集。随机抽样。原创 2025-04-24 15:48:22 · 711 阅读 · 0 评论 -
MCP协议发展与流行项目
MCP(Model Context Protocol,模型上下文协议)是由Anthropic公司于2024年11月提出的开放标准协议,旨在为大型语言模型(LLM)与外部工具、数据源建立标准化连接。该协议被喻为“AI界的USB接口”,通过定义统一的JSONSchema参数结构,解决了传统AI工具调用中存在的数据孤岛、开发碎片化等问题。原创 2025-04-24 15:42:52 · 652 阅读 · 0 评论 -
大模型中超参数TopK是什么
基本定义Top-K(Top-K Sampling)是一种基于概率采样的文本生成策略。其核心思路是:在每个生成步骤中,模型仅保留概率最高的前K个候选词(Token),并将这些词的概率重新归一化后采样。例如,若设置K=50,则模型仅从概率前50的候选词中选择下一个词,其余低概率词被完全排除。数学实现步骤1:对模型输出的概率分布(Logits)进行排序,选取前K个最高概率的Token。步骤2:对选中的K个Token的概率进行归一化(即重新计算概率和为1的分布)。原创 2025-04-21 23:43:59 · 1095 阅读 · 0 评论 -
性价比超高的 英伟达Tesla T4卡 如何解决散热问题?
在标准服务器机架中,T4可通过高密度风道和工业级散热架构实现稳定运行,但在普通塔式机箱中,因其散热空间有限且气流通路复杂,被动散热可能面临挑战。作为Tesla系列的一员,T4并非面向游戏市场,而是聚焦于企业级AI与计算密集型任务,如云端服务、边缘计算等。需配合水泵和散热液,成本较高(500-2000元),但可支持多卡并联。风道,前置12/14cm高风量风扇(如Noctua NF-A14),后置排风风扇增强对流。通过以上方案,T4在塔式机箱中可实现与服务器相近的散热效能,充分发挥其。原创 2025-04-20 11:17:27 · 1080 阅读 · 0 评论 -
WordPiece 详解与示例
WordPiece 是一种子词分词算法,由谷歌于2012年提出,最初用于语音搜索系统,后广泛应用于机器翻译和BERT等预训练模型。其核心思想是将单词拆分为更小的子词单元(如词根、前缀/后缀),从而解决传统分词方法面临的词表过大和OOV问题。原创 2025-04-16 23:50:01 · 1167 阅读 · 0 评论 -
Qwen系列大模型和LlaMA系列大模型都使用的什么分词器
Qwen以字节级BPE+中文优化为核心,在压缩率、多语言支持(尤其是中文)上占据优势;LLaMA依赖SentencePiece BBPE+大规模词表,通过GQA等技术提升推理效率,但在非拉丁语系场景需额外优化。两者均通过动态扩展技术(如YARN、GQA)适应长序列需求,并在多模态领域探索跨模态分词逻辑。未来,任务自适应分词器和无损压缩算法将成为竞争焦点。原创 2025-04-15 07:29:35 · 863 阅读 · 0 评论 -
主流的大模型都使用了什么分词器
通用领域:BPE(GPT系列)与WordPiece(BERT系列)仍是基准选择专业领域:Unigram(金融/科学)和扩展版WordPiece(生物医学)更具优势多语言场景:SentencePiece和字节级BPE成为事实标准未来开发者需根据任务类型(生成vs理解)、语言特性(形态复杂度)和资源约束(训练数据规模)进行动态选择。例如在低资源语言任务中,优先测试CANINE-c的字符级分词;而在需要细粒度语义捕捉的场景中,WordPiece仍是首选。原创 2025-04-15 07:27:41 · 972 阅读 · 0 评论 -
大模型中提到的分词器是什么
分词器作为大模型的“第一道工序”,其设计直接影响模型的语言理解能力、训练效率和跨领域适应性。从BPE的频次合并到Unigram的概率优化,再到SentencePiece的多语言支持,算法演进始终围绕语义保留与计算效率的平衡展开。未来,随着多模态和低资源语言的需求增长,分词器将更注重灵活性、领域适应性和无损压缩能力。原创 2025-04-14 23:36:16 · 766 阅读 · 0 评论 -
机器学习中 提到的张量是什么?
多维数组视角传统数学和物理学中,张量被定义为多维数组,其分量在坐标变换时遵循协变或逆变规则。例如,标量(0阶张量)在坐标系变换下数值不变,向量(1阶张量)的分量通过线性变换规则转换,而矩阵(2阶张量)的分量需通过双重线性变换。多重线性映射视角现代数学将张量定义为向量空间及其对偶空间上的多重线性映射。这种定义不依赖于特定坐标系,强调张量作为几何对象的本质。例如,协变矢量可视为对偶空间的元素,描述线性函数对向量的作用。物理量的不变性张量被用来表示客观存在的物理量。原创 2025-04-14 23:34:49 · 1533 阅读 · 0 评论 -
AI绘画中的LoRa是什么?
LoRa采用线性扩频调制技术,不仅继承了FSK调制模式的低功耗特性,还进一步扩展了通信距离,增强了网络抗干扰能力。在拉丁语中,“Lora”意为“胜利与荣誉”,而在希腊语中则有“光”或“火炬”的含义。在中国,LoRa技术已逐渐成为LPWA技术体系的重要组成部分,并在多个行业实现商业化应用。在音乐领域,Lora是一位来自伦敦的杰出歌手兼钢琴家,她以轻松悦耳的音乐风格闻名,并在全球范围内举办过许多重要活动。综上,Lora可以指代LoRa技术、LoRA AI绘画模型、名字或特定领域的个体。原创 2025-04-05 22:55:51 · 561 阅读 · 0 评论 -
CKPT文件是什么?
总结起来,ckpt检查点是一种重要的技术手段,其核心作用是记录系统或数据的当前状态,以便在中断或异常情况下能够快速恢复。在Oracle数据库中,ckpt(CheckPoint)是一个后台进程,负责触发检查点事件,从而将脏缓冲区中的数据写入磁盘,并更新数据文件头和控制文件中的检查点信息。在并行计算中,ckpt检查点用于记录并行任务的执行状态,以便在任务中断后能够恢复到最近的状态继续执行。在机器学习领域,ckpt检查点主要用于保存模型的中间状态,以便在训练中断后能够从中断的地方继续训练。原创 2025-04-05 22:49:34 · 1120 阅读 · 0 评论 -
MCP有哪些比较好的资源?
Smithery 是一个全面的MCP服务器集合,收录了2211个MCP服务器,并提供了安装命令和GitHub仓库链接。mcp.so 是一个专注于展示最新MCP服务器、客户端和Feed的平台,用户可以在此提交自己的MCP服务器并查看其他用户的贡献。AIbase 提供了一个国内优质的MCP资源导航网站,集合了丰富的MCP服务器和客户端资源,并附带详细的开发文档和教程。这是一个分类整理的MCP服务器列表,包含多个领域的资源,如文件系统、数据库、搜索引擎等。这是一个活跃的开发者社区,适合希望与同行互动的用户。原创 2025-04-04 22:28:59 · 604 阅读 · 0 评论 -
DeepSeek 开源的 3FS 如何?
3FS旨在解决AI领域中海量数据存储与高速访问的挑战,通过整合现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络技术,最大化硬件带宽利用率。其设计目标是简化分布式应用的开发,提升AI训练与推理的效率。例如,在DeepSeek V3和R1模型中,3FS被用于数据预处理、检查点操作及推理加速。3FS通过硬件协同设计与软件创新,显著提升了AI任务的效率,其开源标志着分布式存储领域的技术突破。未来,随着AI模型规模的持续扩大,3FS或将成为行业基础设施的重要组件,推动“以存代算”范式的普及。原创 2025-04-02 22:07:23 · 947 阅读 · 0 评论 -
DeepSeek 都开源了哪些技术?
DeepSeek的开源项目覆盖从硬件加速、模型训练到应用集成的全链条,其技术先进性与社区影响力已得到广泛认可。未来,随着更多项目开源,DeepSeek或将继续引领AI基础设施的创新浪潮。原创 2025-04-02 22:03:18 · 2115 阅读 · 0 评论 -
通义万相2.1 你的视频创作之路
通义万相2.1是阿里巴巴达摩院研发的多模态生成式AI模型,以视频生成为核心,同时支持图像、3D内容及中英文文字特效生成。复杂动作与物理规律建模能够稳定生成包含人体旋转、跳跃、翻滚等复杂动作的视频,并精准还原碰撞、反弹、切割、挤压等物理现象(如雨滴落在伞面溅起水花的细节)。多语言视频特效与艺术风格转换支持中英文文字视频生成,提供粒子效果、过渡动画等特效选项,并可一键切换影视质感、水墨画风等艺术风格。无限长1080P视频编解码。原创 2025-03-31 23:36:28 · 816 阅读 · 0 评论 -
有哪些开源的视频生成模型
这些模型的开源降低了AI视频生成门槛,推动了多领域创新,未来将进一步缩小与闭源模型的差距。原创 2025-03-31 23:25:20 · 1043 阅读 · 0 评论 -
H100的卡 需要多少才能有10P的算力
要确定需要多少块NVIDIA H100 GPU才能达到10 PetaFLOPS(10P)的算力,需结合其浮点计算性能指标进行理论推导和实际场景分析。原创 2025-03-28 14:46:39 · 1320 阅读 · 0 评论 -
TF32 与 FP32 的区别
通过结合TF32的高效性和FP32的精度,混合精度训练已成为AI领域的标准实践,未来随着硬件迭代,TF32或进一步替代FP32成为AI计算的主流格式。TF32(Tensor Float 32)与FP32(单精度浮点数)是两种用于深度学习和高性能计算的浮点格式,其核心区别体现在。原创 2025-03-28 14:43:38 · 956 阅读 · 0 评论 -
异构算力是什么,谁能支持?
硬件层:通过资源池化与融合架构实现灵活配置。软件层:CUDA、OpenCL等框架降低开发门槛,国产工具链加速生态自主化。服务层:主流云厂商提供即用型异构算力产品,覆盖AI、科学计算等场景。未来随着算力网络与开源生态的成熟,异构算力将更深度赋能千行百业。原创 2025-03-28 10:46:21 · 865 阅读 · 0 评论 -
Meta 语言翻译大模型
模型组成与开源情况:专注于保留语音的韵律、情感和说话风格(如耳语、悲伤等情绪表达)。:实现延迟仅2秒的实时语音翻译,支持流式处理。:作为基础模型,支持多模态翻译(语音↔文本),覆盖100+语言。Seamless:前三者的融合版本,兼具实时性、多语言性和情感表达。前三个模型已在GitHub和Hugging Face开源。技术突破实时性:语音转换延迟低于2秒,接近离线模型准确率。情感保留:通过PRETSSEL和Prosody UnitY2技术捕捉语速、停顿等细节。安全性。原创 2025-03-26 16:55:21 · 674 阅读 · 0 评论 -
AIAgent有哪些不错的开源平台
AutoGPT 是一个基于 OpenAI 的 GPT-4 和 GPT-3.5 大型语言模型的开源框架,能够根据用户给定的目标自动生成所需提示,并利用多种工具 API 执行多步骤任务。这些开源平台和框架涵盖了从基础开发到高级应用的多种需求,开发者可以根据具体需求选择合适的工具进行 AI Agent 的开发和部署。SuperAGI 是 AutoGPT 的更灵活、用户友好的替代品,包含构建、维护和运行自己的代理所需的所有组件。XAgent 是一个实验性的大型语言模型驱动的自主代理框架,具有更高的可控性和扩展性。原创 2025-03-18 23:52:13 · 602 阅读 · 0 评论 -
微软开源神器OmniParser V2.0 介绍
微软开源的OmniParser V2.0是一款功能强大且应用广泛的AI工具,它通过高效的视觉解析技术和多模型支持,显著提升了AI智能体的操作能力和效率。无论是自动化办公、艺术创作还是软件测试,OmniParser V2.0都展现了其巨大的潜力和价值。同时,开源策略也为开发者提供了更多的可能性,推动了AI技术的创新与发展。提升GUI自动化效率OmniParser V2.0通过将屏幕截图转换为结构化元素,显著提升了大型语言模型(LLM)对图形用户界面(GUI)的解析能力。原创 2025-03-14 23:32:58 · 1170 阅读 · 0 评论 -
什么是提示词工程,有哪些开源项目
LangGPT通过结构化和模板化的方法,将复杂的提示词设计过程转化为简单、直观的操作步骤,显著降低了学习门槛并提高了效率。同时,其灵活性、交互友好性和社区支持也为用户提供了强大的工具支持,使其能够高效地设计和优化高质量的AI提示词。例如,LangGPT通过内置的经典提示句和格式法等基础方法论,保证了生产的初版提示词的质量。PromptRange是一个构建服务于提示词工程的生态系统的项目,包含提示词调优工具库、提示词靶场平台以及基于移动互联网和微信的外部终端接入。原创 2025-03-14 23:29:40 · 879 阅读 · 0 评论 -
MCP服务协议详细介绍
MCP(Model Context Protocol)是一种开放协议,旨在连接大型语言模型(LLMs)与外部数据源或工具。通过标准化接口,MCP使AI模型能够安全地与本地和远程资源进行交互,从而提升数据交互效率和安全性。原创 2025-03-13 21:49:03 · 1465 阅读 · 0 评论 -
Browser-Use无缝连接AI 代理与浏览器的Python工具
Browser-Use 是一个开源的 Python 库,旨在通过 AI 代理与浏览器的无缝连接,实现网页自动化操作。它为开发者提供了一个强大且简单的工具,使 AI 能够像人类一样浏览和操作网页,从而完成复杂的任务。原创 2025-03-12 07:47:53 · 1249 阅读 · 0 评论 -
LLM-Align 技术原理和使用 介绍
LLM-Align 是一种创新的基于 LLM 的对齐技术,通过利用 LLM 的指令遵循能力和零-shot 能力,结合多轮投票机制和知识融合方法,实现了高效且准确的实体对齐。其在知识图谱构建、跨领域知识整合和自动化对齐工具开发等方面具有重要的应用价值。多轮对话与投票机制LLM-Align 通过多轮对话和投票机制来提高对齐质量。在每一轮中,LLM 会生成多个候选答案,并通过投票机制选择最终结果。原创 2025-03-06 19:06:31 · 858 阅读 · 0 评论 -
采用大模型技术进行知识图谱实体对齐的技术和开源项目
LLM-Align 是一种基于大型语言模型(LLM)的实体对齐方法,利用 LLM 的指令遵循和零-shot 能力进行实体对齐推断,并通过多轮投票机制提高对齐质量。ChatEA 是一种结合大模型改进实体对齐的方法,利用大模型的背景知识和推理能力增强基于知识表示的实体对齐。CG-MuAlign 是一种基于图神经网络(GNN)的多类型实体对齐方法,利用邻域信息泛化到未标记的类型。这些技术和开源项目展示了大模型在知识图谱实体对齐中的广泛应用,从自动化对齐到增强推理能力,均体现了大模型技术在知识图谱领域的巨大潜力。原创 2025-03-06 18:02:06 · 1146 阅读 · 0 评论