自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 问答 (2)
  • 收藏
  • 关注

原创 shap不能做多变量回归?为什么老爆内存?

接上文,在解决了catboost可以做多任务回归之后,shap又遇到了kernel崩溃的问题,心态崩溃ing,如下图。既然是深度太深了爆内存,那么就把catboost的树的深度降到最低就好了,我这里试了试大概是5层。在尝试了各种解决方法之后,发现是因为SHAP跑的时候,树的深度太深会使得内存爆掉。吐槽一下SHAP网上资料太少了。

2024-07-16 23:43:49 206

原创 Catboost 不能做多变量回归?

Catboost 默认用的回归的损失是RMSE,所以针对多变量的回归任务/分类任务需要更改损失函数。

2024-07-16 23:38:30 312

原创 自然语言处理:项目推荐

持续更新ing,有推荐的可以评论哦。

2024-07-12 15:00:00 205

原创 自然语言处理:第四十二章 RAG与LLM原先知识冲突时,大模型会如何处理?

ClashEval》这篇论文由斯坦福大学的研究者Kevin Wu、Eric Wu和James Zou撰写,研究关注的是在使用检索增强生成(RAG)技术的大规模语言模型(LLM)中,如何处理外部检索到的信息。RAG旨在减少幻觉并为模型提供最新知识,但当检索到的内容存在错误或有害信息时,模型如何应对这一问题?研究者创建了一个包含1200多个问题的数据集,覆盖了六个不同领域,如药物剂量、奥运记录和地理位置,以及与每个问题相关的内容。并针对每个问题的答案进行了不同程度的错误注入。

2024-07-12 10:00:00 869

原创 自然语言处理:第四十一章 解读大模型的参数

大模型也是有大有小的,它们的大小靠参数数量来度量。GPT-3就有1750亿个参数,而Grok-1更是不得了,有3140亿个参数。当然,也有像Llama这样身材苗条一点的,参数数量在70亿到700亿之间。这里说的70B可不是指训练数据的数量,而是指模型中那些密密麻麻的参数。这些参数就像是一个个小小的“脑细胞”,越多就能让模型更聪明,更能理解数据中那些错综复杂的关系。有了这些“脑细胞”,模型在处理任务时可能就会表现得更好。

2024-07-02 16:00:00 768

原创 自然语言处理:第四十章 如何与大模型交流-Prompt工程

本文介绍了一套由26条指导原则构成的框架,旨在简化向大型语言模型(LLMs)提问和提示的过程。这些原则旨在帮助用户更好地理解如何针对不同规模的LLM设计问题,评估它们的能力,并提升用户对不同模型在接收不同提示时行为的理解。研究团队在LLaMA-1/2和GPT-3.5/4等模型上进行了广泛实验,验证了这些原则在指导指令和提示设计上的有效性。该工作为大型语言模型提示研究者提供了一个更全面的指南,并通过开源项目页面(https://github.com/VILA-Lab/ATLAS)分享了相关资源。

2024-07-02 09:30:00 904

原创 自然语言处理:第三十九章 中文测评榜单-CEval

C-EVAL 是首个旨在评估基础模型在中文语境下的高级知识和推理能力的综合评估套件。C-EVAL 包含跨越四个难度级别(初中、高中、大学和专业)的选择题,涵盖52个不同学科,从人文学科到科学工程。C-EVAL 还包括一个名为 C-EVAL HARD 的子集,包含需要高级推理能力的非常具有挑战性的科目。我们对最先进的大型语言模型进行了全面评估,结果显示只有 GPT-4 的平均准确率超过60%,表明当前模型还有很大的改进空间。

2024-06-24 15:00:00 1362

原创 自然语言处理:第三十八章: 开箱即用的SOTA时间序列大模型 -Timsfm

本文介绍了由谷歌研究团队成员共同设计的一种专为时间序列预测设计的解码器通用大基础模型。该模型通过预训练一个采用输入分块技术的解码器风格注意力模型,并结合输入补全(input patching)技术,在包含真实世界和合成数据的大量时间序列语料上实现。其零样本(zero-shot)性能在多种公开数据集上接近于针对每个数据集的最先进监督预测模型的准确性。研究显示,这一模型能够跨越不同领域、预测时段及时间粒度,生成精确的零样本预测。

2024-06-24 09:00:00 971

原创 自然语言处理:第三十七章 RAFT=微调SFT+RAG

在本文中,我们介绍了Low-Rank Adaptation(LoRA)作为一种高效的大语言模型微调方法。通过仅训练选定权重矩阵的低秩扰动,LoRA可以显著减少所需的计算资源,同时保持或提升模型的性能。我们的实验结果表明,虽然LoRA在某些情况下的性能略低于全面微调,但它在目标领域之外的任务上更好地维持了基础模型的性能,并提供了更强的正则化效果。此外,我们还发现,全面微调学习的扰动矩阵的秩远高于LoRA配置,这为我们进一步优化LoRA的性能提供了方向。

2024-06-17 15:00:00 945

原创 自然语言处理:第三十六章HyKGE:北大最强结合知识图谱的医疗RAG

近期来自北大的团队推出了一种名为HyKGE(Hypothesis Knowledge Graph Enhanced)的框架,旨在通过结合知识图谱(KGs)与大型语言模型(LLMs)的检索增强生成(RAG)技术,提高医疗领域大型语言模型响应的准确性和可靠性。针对现有方法存在的知识检索不足、查询解析繁琐耗时、知识利用单调等问题,HyKGE通过LLMs的强推理能力补充用户查询的不完整性,优化与LLMs的交互过程,并提供多样化的检索知识。

2024-06-17 09:00:00 750

原创 自然语言处理:第三十四章Lora VS FineTuning

在本文中,我们介绍了Low-Rank Adaptation(LoRA)作为一种高效的大语言模型微调方法。通过仅训练选定权重矩阵的低秩扰动,LoRA可以显著减少所需的计算资源,同时保持或提升模型的性能。我们的实验结果表明,虽然LoRA在某些情况下的性能略低于全面微调,但它在目标领域之外的任务上更好地维持了基础模型的性能,并提供了更强的正则化效果。此外,我们还发现,全面微调学习的扰动矩阵的秩远高于LoRA配置,这为我们进一步优化LoRA的性能提供了方向。

2024-06-10 14:47:37 854

原创 自然语言处理:第三十五章Embedding 测评榜单MTEB

文章链接:项目地址:github地址:NLP的应用中,有一个最关键的步骤就是将文字/其他多模态的模型转换成词嵌入/向量化,而对应的这个模型便称之为Embedding模型。那么在这么多embedding模型里,如何评价好坏呢?本文就会介绍,(Massive Text Embedding Benchmark)是目前评测文本向量很重要的一个参考,其也是各大文本向量模型用来展示与其他向量模型强弱的一个竞技台。则是专门针对中文文本向量的评测基准。

2024-06-10 11:00:00 1520 2

原创 自然语言处理:第三十三章FILCO:过滤内容的RAG

性能提升:FILCO在六个知识密集型任务上的性能均优于基线方法,包括提取式问答、复杂多跳问答、长形问答、事实验证和对话生成任务。上下文质量改善:FILCO有效地提高了上下文的质量,无论其是否支持规范输出。输入长度减少:FILCO通过过滤检索到的上下文,显著减少了模型输入的长度,平均减少了44-64%。答案精度提高:过滤后的上下文在所有任务上都实现了更高的答案精度,特别是对于抽象任务,如FEVER和WoW。

2024-06-04 15:32:07 964

原创 自然语言处理:第三十二章HippoRAG:性能提高20% - 受海马体启发的RAG

HippoRAG,这是一种由斯坦福大学联合发布的新颖的检索框架,灵感来源于人类长期记忆的海马索引理论。HippoRAG结合了大型语言模型(LLMs)、知识图谱和个性化PageRank算法,以模拟人类记忆中新皮层和海马的不同角色。通过这种方法,HippoRAG能够在新体验中更深入、更高效地整合知识。我们比较了HippoRAG与现有检索增强生成(RAG)方法在多跳问题回答上的性能,结果表明HippoRAG显著优于现有最先进方法,最高提升了20%。

2024-06-04 09:51:09 1211

原创 驭风计划数据结构与算法考核答案

驭风计划是由清华大学老师教授的,其分为四门课,包括: 机器学习(张敏教授) , 深度学习(胡晓林教授), 计算机语言(刘知远教授) 以及数据结构与算法(邓俊辉教授)。代码和报告均为本人自己实现,由于篇幅限制,只展示任务布置以及关键代码,如果需要报告或者代码可以私聊博主。数据结构与算法部分授课老师为邓俊辉教授,主要通过从贪心,分治,图搜索,动态规划 , 散列表, 计算几何入门数据结构与算法,有想法的可以私聊我。

2024-06-03 09:00:00 185

原创 NLP面试官:“Attention为什么要除以根号d” 算法女生这么回答当场想发 offer

作者说,当 的值变大的时候,softmax 函数会造成梯度消失问题,所以设置了一个 softmax 的 temperature 来缓解这个问题。这个题目可以说是 NLP 面试中一个高频出现的问题,基本上问到 Attention 或者 Transformers 的时候都会问。这个问题在《Attention is All Your Need》的原始论文中是给出了一个粗略的答案的。这是个好题目,我作为面试官的时候也经常问,因为很快能了解到面试同学的数学功底怎么样。下面来回答一下这两个衍生的问题。

2024-06-01 18:19:56 358

原创 对抗训练:提高机器学习模型鲁棒性的关键技术

对抗训练是一种强大的工具,可以帮助我们构建更加安全可靠的人工智能系统。随着对抗样本攻击手段的不断进步,对抗训练技术也在不断发展,以应对新的挑战。

2024-05-20 15:25:39 958

原创 最全总结!十大SVM算法模型!

支持向量机(SVM)能够处理高维数据、非线性可分问题,并且具有良好的泛化能力,被广泛应用于分类、回归和异常检测等领域。每一种模型和变体在不同的问题和数据集上表现出不同的性能和特点,在实际情况中,合适的模型取决于具体的应用场景和数据特征。SVM通过找到最优超平面来划分不同类别的数据,从而实现对数据的有效分类和预测。今天咱们从以下10个方面出发,详细介绍其每种算法模型的核心要点和使用方法。先来简单介绍下支持向量机~

2024-05-20 08:38:38 170

原创 Pytorch如何计算网络参数

Pytorch如何计算网络参数

2024-05-13 16:39:16 314

原创 Seaborn用法大全

Seaborn是一个基于Python的数据可视化库,它建立在matplotlib的基础之上,为统计数据的可视化提供了高级接口。Seaborn通过简洁美观的默认样式和绘图类型,使数据可视化变得更加简单和直观。它特别适用于那些想要创建具有吸引力且信息丰富的统计图形的数据科学家和数据分析师。

2024-05-13 08:51:19 1039

原创 机器学习之SMOTE重采样--解决样本标签不均匀问题

使用SMOTE算法对其中的少数类别进行过采样,以使其与多数类别的样本数量相当或更接近。这个示例中,首先生成一个不平衡的二分类数据集,然后使用SMOTE算法来生成新的合成样本,使得两个类别的样本数量相等。最后原始数据集和平衡后的数据集进行可视化展示。包含了各种常用的不平衡数据处理方法,例如:随机过采样,SMOTE及其变形方法,tom-links欠采样,编辑最近邻欠采样方法等等。仅用正样本的K近邻生成新正样本是正是SMOTE方法,考虑到(SMOTE的最终目的是分清正负样本的边界),所以需要对样本生成进行优化。

2024-05-06 17:36:49 554

原创 自然语言处理: 第三十一章RAG2.0

冻结模型RAG:这些在整个行业中随处可见,它们只是概念验证(POC)。半冻结模型RAG:应用智能检索器,并试图使它们以某种方式适应。不修改LLM只是操作检索器并将它们与最终输出结合。完全可训练的RAG:端到端训练相当困难,但如果做得正确,可以提供最佳性能。但是肯定非常消耗资源。

2024-05-06 11:19:36 1071

原创 自然语言处理: RAT = CoT + RAG

Retrieval Augmented Thoughts (RAT) 是一种协同思维链 (CoT) 和检索增强生成 (RAG) 的 AI 提示策略,助力解决具有挑战性的长任务推理和生成。

2024-04-29 15:00:00 1113

原创 自然语言处理: 第三十章Hugging face使用指南之——trainer

原文连接:最近在用HF的transformer库自己做训练,所以用着了transformers.Trainer,这里记录下用法。

2024-04-29 10:00:00 1238

原创 自然语言处理: 第二十九章免费的GPT网站

由于在国内,导致gpt访问很多地方不稳定。本文主要是为了给大家介绍几个白嫖GPT好用的网站,具体网址可以通过标题访问。

2024-04-23 19:30:00 2857

原创 自然语言处理: 第二十八章大模型基底之llama3

LLaMa系列一直是人们关注的焦点,Meta在4月18日发布了其最新大型语言模型 LLaMA 3。该模型将被集成到其虚拟助手Meta AI中。Meta自称8B和70B的LLaMA 3是当今 8B 和 70B 参数规模的最佳模型,并在推理、代码生成和指令跟踪方面有了很大进步。(对LLaMa系列有兴趣的可以看看我上一篇博客第二十一章大模型基底之llama1以及第二十二章大模型基底之llama2Llama 3 的词汇量从 Llama 128,256 的 2 个令牌增加到 32,000 个令牌。

2024-04-23 14:19:10 1537

原创 自然语言处理: 第二十七章LLM训练超参数

LLM微调的超参大致有如下内容,在本文中,我们针对这些参数进行解释。

2024-04-15 14:59:15 917

转载 自然语言处理: 第二十六章大模型基底之Mistral 8x7B

本文意在一文深度剖析Mistral 8X7B的关键改进点。Mistral AI是一个由DeepMind和Meta的三位前员工在巴黎共同创立的AI公司。其在23年9.月推出的第一个基座大模型Mistral 7B一经推出就吊打当时同参数量的任何开源7B模型,甚至在当时所有评估基准中均胜过了最好的13B参数模型-Llama 2 - 13B,并在推理、数学和代码生成方面超越了Llama 34B。更令人激动人心的是,同年12月份Mistral AI 就迅速推出了混合专家模型。

2024-04-15 10:00:00 1601

原创 时间系列预测总结

转载自:https://mp.weixin.qq.com/s/B1eh4IcHTnEdv2y0l4MCog拥有一种可靠的方法来预测和预测未来事件一直是人类的愿望。在数字时代,我们拥有丰富的信息,尤其是时间序列数据。时间序列是指基于时间刻度维度(天、月、年等)采样和组织的任何数据。预测它将提供有价值的见解,帮助我们做出明智的决策并制定业务战略。时序数据示例包括:金融市场:股票价格、汇率和交易量。气候和天气:温度、降雨量和风速。销售和需求预测:一段时间内的产品销售数据。

2024-04-08 13:39:35 701

原创 自然语言处理: 第二十三章大模型基底之Mistral 7B

Mistral 7B作为Mistral AI公司推出的第一个基座大模型,也有很多地方借鉴了LLaMa2的闪光点也采用了GQA(分组查询注意力) 以及RoPE(旋转位置编码)–(目前似乎是标配了)。在此基础上,为了踩在LLaMa2的肩膀上更进一步,Mistral AI 使用了SWA(滑动窗口注意力机制)进一步解决了长本文的问题,如图1所示Mistral 7B的文本长度已经达到了32K(LLaMa2只有4K).图1. Mistral 7B 模型参数。

2024-04-08 10:00:00 1313

原创 机器学习之常用的回归预测模型

本文全面整理了各种回归预测模型,旨在帮助读者更好地学习回归预测模型

2024-04-04 14:52:46 1653

原创 自然语言处理: 第二十二章大模型基底之llama2

在LLaMa1的基础之上有兴趣的可以看看我上一篇博客自然语言处理: 第二十一章大模型基底之llama1。Meta 又继续推出了LLaMa2, 其分别由3个不同大小的权重模型分别是:7B,13B以及70B的版本。● 在LLaMa1的基础上,继续增加了40%的预训练数据。主要是清理了一些隐私数据和知识增强从而提高数据质量● 继续在每个block输入层中使用RMSNorm● 继续使用RoPE位置编码图1. LLaMa2网络结构

2024-04-04 10:00:00 1143 2

原创 自然语言处理:大模型LLM论文整理

LLMs 千面郎君 地址:https://github.com/km1994/LLMs_interview_notes。NLP 百面百搭 地址:https://github.com/km1994/NLP-Interview-Notes。NLP论文学习笔记:https://github.com/km1994/nlp_paper_study。推荐系统论文学习笔记:https://github.com/km1994/RS_paper_study。

2024-03-31 14:01:32 775

原创 自然语言处理: 第二十五章 LLM 预训练监督微调阶段 tricks

预训练和微调分别是大模型进行通用知识学习和领域自适应知识的迁移学习的过程。本文通过结合本人和一些“炼丹大神”的经验介绍微调和预训练的一些经验。

2024-03-31 11:08:11 603

原创 自然语言处理: 第二十四章 为什么在NLP领域中普遍用LayerNorm 而不是BatchNorm?

前面讲了架构, 其中有一个层归一化layerNorm结构,最近在看不同的大模型结构中也发现会对其优化。但是似乎在CV领域貌似批次归一化BN层用的也很多,那么这两个归一化层到底有什么区别呢?为何在NLP领域几乎都是LN层,而不用BN层呢?一、What is Normalization?Normalization:规范化或标准化,就是把输入数据X,在输送给神经元之前先对其进行平移和伸缩变换,将X的分布规范化成在固定区间范围的标准分布。

2024-03-30 17:42:33 1184

原创 自然语言处理: 第二十一章大模型基底之llama1

LLaMA可以说是目前开源届最强的基底模型之一,有无数的商用版本是将其作为基底模型来做后续扩展或者说商用的,截至到24年3月目前META已经推出了LLaMA1 & LLaMA2 两个版本,接下来两期我会分别介绍这两个大基底模型之间的两点以及意义。本文关注LLaMA1的技术亮点,其推出了4个不同参数大小的模型分别是: 7B , 13B , 33B & 65B。在大部分的任务上,LLaMA-13B强于GPT-3(175B)。

2024-03-30 17:40:54 1152

原创 自然语言处理: 第二十章Dify本地部署

项目地址: difyDify 是一个 LLM 应用开发平台,已经有超过 10 万个应用基于 Dify.AI 构建。它融合了 Backend as Service 和 LLMOps 的理念,涵盖了构建生成式 AI 原生应用所需的核心技术栈,包括一个内置 RAG 引擎。使用 Dify,你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力。本地成功部署后,就可以在此基础上配置自己专属的RAG 和 agent了。建议使用linux或者macos系统,windows系统部署下,有的功能会有

2024-03-28 11:05:58 2712

原创 远程todesk 和向日葵连接ubuntu无法连接

今天远程用todesk 和向日葵连接对方ubuntu22.04 LTS的 电脑,无法连接,一开始以为是防火墙问题,后来发现不是,找了半天资料最后解决。把#WaylandEnable=false前的#号删掉 , 按ctrl + x保存退出。没有安装X11桌面环境,还是原先的wayland。打开配置确认是x1桌面,成功!

2024-03-28 10:05:50 967 1

原创 自然语言处理: 第十九章LoRA&QLoRA微调技巧

本篇文章是由位来自威斯康星大学麦迪逊分校的统计学助理教授Sebastian Raschka,也是人工智能平台Lightning AI的LLM研究员,进行了成百上千次关于LoRA的实验。他的实验日记为我们提供了宝贵的见解,包括如何节省内存、选择最佳配置等问题。他的研究回答了一些关键问题,例如是否应该用SGD取代AdamW,使用调度器的潜在价值,以及如何调整LoRA的超参数。

2024-03-25 14:00:00 2236 2

原创 自然语言处理: 第十八章微调技术之QLoRA

QLoRA是来自华盛顿大学的Tim Dettmers大神提出的模型量化算法,应用于LLM训练,降低显存需求,其足以在单个48GB显存的GPU上对LLAMA 65B进行微调,同时能保持16位全量微调的效果。1. 新定义了一种4位标准浮点数NF4(Normal Float4)的最优数据类型2. 双重量化,对普通参数和量化常数分别量化,进一步减少缓存占用3. 分页优化器(page optimizer),在显存过高时以部分内存替代显存。

2024-03-25 10:00:00 2379

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除