- 博客(105)
- 收藏
- 关注
原创 【大模型LLM面试合集】大语言模型架构_MoE经典论文简牍
总结了一下笔者在阅读 MoE 相关文献时印象较深的几篇文章,上述所阅读的文献主要与NLP相关的,其实 MoE 在各个领域中的应用已经十分广泛。比如Google提出的多模态MoE模型——LIMoE:, ICLR’21MoE 的思想,其实十分符合 Google 提出的 Pathways 愿景,也更加符合通用人工智能的设计理念。虽然目前 MoE 的工作,多数都是开发“超级模型”,但是上面列举的一些工作也表明 MoE 的用途还有很多,可以启发很多方向上方法的改进。
2024-08-06 12:41:14 828
原创 【大模型LLM面试合集】大语言模型架构_layer_normalization
为什么要进行BN呢?在深度神经网络训练的过程中,通常以输入网络的每一个mini-batch进行训练,这样每个batch具有不同的分布,使模型训练起来特别困难。Internal Covariate Shift (ICS) 问题:在训练的过程中,激活函数会改变各层数据的分布,随着网络的加深,这种改变(差异)会越来越大,使模型训练起来特别困难,收敛速度很慢,会出现梯度消失的问题。
2024-07-09 18:01:10 969
原创 【大模型LLM面试合集】大语言模型架构_MoE论文
神经网络的吸收信息的容量(capacity)受限于参数数目。条件计算(conditional computation)**针对于每个样本,激活网络的部分子网络进行计算**,它在理论上已证明,可以作为一种显著增加模型容量的方法。在实际中,在牺牲少量计算效率的情况下,实现了1000 倍的模型容量(model capacity)的提升。引入了稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts Layer),包括数以千计的前馈子网络。
2024-07-09 17:57:43 1220
原创 【大模型LLM面试合集】大语言模型架构_attention
MHA(Multi-head Attention)是标准的多头注意力机制,h个Query、Key 和 Value 矩阵。MQA(Multi-Query Attention)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的是,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。GQA(Grouped-Query Attention)是分组查询注意力,
2024-07-08 22:28:53 1373
原创 【大模型LLM面试合集】大语言模型基础_Word2Vec
Word2Vec是google在2013年推出的一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。用词向量来表示词并不是Word2Vec的首创,在很久之前就出现了。最早的词向量采用One-Hot编码,又称为一位有效编码,每个词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。比如下面的5个词组成的词汇表,采用One-Hot编码方式来表示词向量非常简单,但缺点也是显而易见的,一方面实际使用的词汇表很大。
2024-07-08 22:05:34 1115
原创 【大模型LLM面试合集】大语言模型基础_NLP面试题
BERT(Bidirectional Encoder Representations from Transformers)是谷歌提出,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。BERT 只利用了 Transformer 的 encoder 部分。因为BERT 的目标是生成语言模型,所以只需要 encoder 机制。
2024-07-07 18:53:56 1351
原创 【大模型LLM面试合集】大语言模型基础_LLM为什么Decoder only架构
LLM 是 “Large Language Model” 的简写,目前一般指百亿参数以上的语言模型, 主要面向文本生成任务。跟小尺度模型(10亿或以内量级)的“百花齐放”不同,目前LLM的一个现状是Decoder-only架构的研究居多,像OpenAI一直坚持Decoder-only的GPT系列就不说了,即便是Google这样的并非全部押注在Decoder-only的公司,也确实投入了不少的精力去研究Decoder-only的模型,如PaLM就是其中之一。
2024-07-07 18:45:00 999
原创 【大模型LLM面试合集】大语言模型基础_词向量
基于深度学习的词向量训练方法,具有算法简单通用,语料获取容易,泛化性好的优点。词向量在文本分析,文本摘要,情感分析等领域都是必须的预处理,可以大大提高自然语言处理的准确度。下面来看一个基于skip-gram的词向量训练的代码实现,这样就能够skip-gram算法有比较深刻的理解。此时训练词向量时,可以先基于一个已有的模型进行增量训练,这样就可以得到包含特定语料的比较准确的词向量了。工具,它可以进行词向量训练,加载已有模型进行增量训练,求两个词向量相似度,求与某个词接近的词语,等等。工具进行词向量模型训练。
2024-07-06 19:16:55 728
原创 【大模型LLM面试合集】大语言模型基础_句法分析
句法分析,任重而道远。随着深度学习在NLP中的使用,特别是本身携带句法关系的LSTM模型的应用,句法分析已经变得不是那么必要了。但是,在句法结构十分复杂的长语句,以及标注样本较少的情况下,句法分析依然可以发挥出很大的作用。句法分析也是自然语言处理中的基础性工作,它分析句子的句法结构(主谓宾结构)和词汇间的依存关系(并列,从属等)。语义依存关系分析,识别词汇间的从属、并列、递进等关系,可以获得较深层的语义信息。研究表明,很多情况下,单纯的bi-lstm,比基于句法分析树的tree-lstm效果更好。
2024-07-06 19:13:18 525
原创 【大模型LLM面试合集】大语言模型基础_词性标注
观测序列即为分词后的语句,隐藏序列即为经过标注后的词性标注序列。jieba可以在分词的同时,完成词性标注,因此标注速度可以得到保证。通过查询字典的方式获取识别词的词性,通过HMM隐马尔科夫模型来获取未登录词的词性,从而完成整个语句的词性标注。然后使用viterbi算法,利用得到的三个概率,将观测序列(分词后的语句)转化得到隐藏序列(词性标注序列)。这种方法比较简单,通俗易懂,但是不能解决一词多词性的问题,因此存在一定的误差。jieba分词就综合了两种算法,对于分词后识别出来的词语,直接从字典中查找其词性。
2024-07-05 18:20:00 1074
原创 【大模型LLM面试合集】大语言模型基础_jieba分词用法及原理
上篇文章分析了自然语言处理,特别是中文处理中,分词的几个主要难点。为了解决这些难点,提出了基于字符串匹配的算法和基于统计的分词算法。针对当前的几种分词引擎,对其分词准确度和速度进行了评估。jieba分词作为一个开源项目,在准确度和速度方面均不错,是我们平时常用的分词工具。本文将对jieba分词的使用方法以及原理进行讲解,便于在理解jieba分词原理的同时,加深对前文讲解的分词难点和算法的理解。
2024-07-05 18:13:26 1011
原创 【大模型LLM面试合集】大语言模型基础_激活函数
神经网络是线性的,无法解决非线性的问题,加入激活函数就是给模型引入非线性能力;不同的激活函数,特点和作用不同:Sigmoid和tanh的特点是将输出限制在(0,1)和(-1,1)之间,说明Sigmoid和tanh适合做概率值的处理,例如LSTM中的各种门;而ReLU就不行,因为ReLU无最大值限制,可能会出现很大值。ReLU适合用于深层网络的训练,而Sigmoid和tanh则不行,因为它们会出现梯度消失。
2024-07-04 16:27:16 1201
原创 【大模型LLM面试合集】大语言模型基础_语言模型
语言模型是序列x1Lx_{1:L}x1L的概率分布 p。直观上,一个好的语言模型应具有语言能力和世界知识。自回归语言模型允许有效地生成给定提示x1ix_{1:i}x1i的补全xi1Lx_{i+1:L}xi1L。温度可以用来控制生成中的变异量。语言模型最初是在信息理论的背景下研究的,可以用来估计英语的熵。N-gram模型在计算上极其高效,但在统计上效率低下。
2024-07-04 16:26:08 1132
原创 【大模型LLM面试合集】大语言模型基础_llm概念
Prefix LM:前缀语言模型是一种生成模型,它在生成每个词时都可以考虑之前的上下文信息。在生成时,前缀语言模型会根据给定的前缀(即部分文本序列)预测下一个可能的词。这种模型可以用于文本生成、机器翻译等任务。Causal LM:因果语言模型是一种自回归模型,它只能根据之前的文本生成后续的文本,而不能根据后续的文本生成之前的文本。在训练时,因果语言模型的目标是预测下一个词的概率,给定之前的所有词作为上下文。这种模型可以用于文本生成、语言建模等任务。
2024-07-03 20:07:28 1316
原创 人工智能在音乐创作中的双刃剑:创新与挑战
AI生成音乐技术近年来迅猛发展,不仅使音乐创作的门槛大幅降低,还使得创意过程变得更加高效和多样化。精英创企和大厂在这场音乐革命中扮演了重要角色,分别在技术创新和市场推广方面起到了至关重要的作用。AI技术在音乐创作中的应用,既带来了前所未有的机遇,也引发了诸多挑战。通过合理利用AI技术,音乐人可以获得更多灵感和技术支持,创作出更加丰富多样的音乐作品。同时,通过制定相关法规和开展教育培训,可以有效应对AI带来的伦理道德问题,确保技术发展与人类创造力的和谐共存。
2024-07-02 14:32:11 928
原创 全面解析自然语言处理(NLP):基础、挑战及应用前景
自然语言处理(NLP)是人工智能和计算语言学的一个分支,致力于使计算机能够理解、解释和生成人类语言。这篇博文将深入探讨自然语言处理的基础知识、挑战、典型任务及其广泛的应用前景。自然语言处理致力于使计算机理解和生成自然语言。其本质在于结构预测,即从输入的自然语言中提取出有用的结构化信息。例如,从句子“The rat ate cheese”中提取出其句法结构。结构预测的过程涉及到多个层次的语言分析,包括词法分析、句法分析和语义分析等。
2024-06-30 18:37:10 1027
原创 GPT-5:下一代AI如何彻底改变我们的未来
根据最新消息,OpenAI 的首席技术官米拉·穆拉蒂在一次采访中确认,GPT-5 将在一年半后发布,并描述了其从 GPT-4 到 GPT-5 的飞跃如同从高中生到博士生的成长。例如,在法律咨询中,GPT-5 可以分析法律条文和案例,为律师和法官提供参考意见,提升法律服务的质量和效率。:GPT-5 可能会采用更加复杂和高效的神经网络结构,例如更深层次的网络、更广泛的并行计算和更高效的参数优化方法。通过对项目数据的实时分析,GPT-5 可以预测项目进度,识别潜在风险,并提出优化建议,提高项目管理的效率和质量。
2024-06-30 18:15:39 1214
原创 CNN和Transformer创新结合,模型性能炸裂!
此研究方向的发展不仅推动了深度学习技术的进步,也为实际应用提供了更丰富的解决方案。- 单分支CNN与transformer的结合:SCTNet创新地将单分支CNN与训练时使用的transformer语义分支结合起来,既保持了推理时的高效率,又能够利用transformer捕获丰富的语义信息。- 混合网络架构:提出了一种结合卷积神经网络(CNN)和Transformer的混合超分辨率(SR)网络,以聚合丰富的特征,包括CNN的局部特征和Transformer捕获的长距离多尺度依赖性。
2024-06-17 12:36:23 1756
原创 【scikit-learn入门指南】:机器学习从零开始
scikit-learn是一款用于数据挖掘和数据分析的简单高效的工具,基于NumPy、SciPy和Matplotlib构建。它能够进行各种机器学习任务,如分类、回归和聚类。
2024-06-15 14:58:14 963
原创 【毕业设计】Django 校园二手交易平台(有源码+mysql数据)
该项目是基于Django的校园二手交易平台开发项目。项目目标是为大学生提供一个安全便捷的校园二手物品买卖平台。项目的主要功能包括用户注册和认证、物品发布和搜索、交易信息管理等。项目开发遵循敏捷开发方法和迭代开发流程,通过持续的迭代和测试逐步改进和扩展功能。
2024-06-14 08:08:37 1683
原创 了解TF-IDF:一种文本分析的强大工具
TF-IDF是一种用来评估一个词语对一个文件集或一个语料库中的一个文件的重要程度的统计方法。它的核心思想是:如果一个词语在一篇文章中出现的频率高,同时在其他文章中出现的频率低,那么这个词语就被认为具有很好的区分性,能够有效地代表该篇文章的内容。
2024-06-14 08:00:00 974
原创 【深度学习】深入探索卷积神经网络:从基础到先进架构”
深度学习是机器学习的一个分支,它通过学习数据的多层次表示来实现复杂任务的自动化,其中“深度”指的是模型中层的数量。计算机视觉,作为人工智能的一个重要领域,旨在使计算机能够从图像或视频中“看”和“理解”世界。卷积神经网络的概念源于对生物视觉感知机制的研究。它们通过模仿生物神经网络的结构,特别是视觉皮层中的局部感知机制,以及层与层之间的连接方式,来实现对视觉数据的高效处理。
2024-04-13 08:00:00 1278
原创 【深度学习】多层感知机与卷积神经网络解析
在人工智能的宏伟画卷中,深度学习如同一笔瑰丽而深邃的色彩,为这幅画增添了无限的生命力和潜能。作为支撑这一领域核心技术的基石,多层感知机(MLP)和卷积神经网络(CNN)在模仿人类大脑处理信息的方式中扮演了重要角色,并在解决复杂计算机视觉问题上展现出了惊人的能力。本文将带领读者深入这两种网络结构的深层次机制,揭示其在当前科技革命中如何发挥着不可替代的作用。
2024-04-11 08:00:00 1788
原创 【机器学习】Logistic与Softmax回归详解
通过深入探讨逻辑回归、Softmax函数、MSE、交叉熵以及偏置项等机器学习核心概念,我们可以看到它们在模型构建和优化过程中的重要性。理解这些概念不仅有助于我们设计出更有效的模型来解决实际问题,而且也是深入学习更复杂机器学习算法和模型的基础。随着技术的不断进步,对这些基础知识的深入理解将使我们更好地掌握人工智能领域的未来发展。
2024-04-10 08:00:00 1452 2
原创 【机器学习】深入解析机器学习基础
在本篇深入探讨中,我们将揭开机器学习背后的基础原理,这不仅包括其数学框架,更涵盖了从实际应用到理论探索的全方位视角。机器学习作为数据科学的重要分支,其力量来源于算法的能力,这些算法能够从数据中学习并做出预测或决策。下面,我们将根据提供的目录详细探讨每个部分。
2024-04-09 08:00:00 846
原创 【机器学习】数学基础详解
在今天的数字化时代,机器学习已成为科技领域的一颗璀璨明星,它的应用遍布从自动驾驶汽车到个性化推荐系统的各个角落。然而,要完全掌握机器学习的强大力量,了解其背后的数学原理是不可或缺的。本篇文章深入探讨了机器学习中三个关键的数学基础:线性代数、概率论和优化理论。从矩阵乘法到贝叶斯定理,从梯度下降到复杂的优化策略,我们将带领读者一步步揭开机器学习算法背后的数学面纱。
2024-04-08 08:00:00 1989
原创 【深度学习】从基础原理到未来挑战的全面探索
深度学习,一种模拟人脑分析和处理数据的机器学习技术,已成为人工智能研究中最令人兴奋的进展之一。其核心在于构建和训练神经网络,这些网络由多个层次组成,每一层都能从输入数据中提取并转换特征。随着数据层层传递,更深层次的网络能学习到更加复杂的数据表示。
2024-04-07 08:00:00 792
原创 机器学习综述:核心概念、方法与未来展望
在这篇全面深入的博文中,我们将带您穿越机器学习的世界,从最基础的概念出发,一步步深入到最尖端的技术和方法。我们不仅仔细剖析了监督学习和无监督学习的细节、技巧和应用场景,还探讨了深度学习和集成学习如何推动着机器学习领域的快速发展。此外,文章还深入讨论了过拟合、数据限制等实验设计中的关键问题,以及贝叶斯统计和最小描述长度等学习理论的分析,为读者提供了一幅机器学习领域的全景图。
2024-04-06 11:38:29 774
原创 【机器学习】如何通过群体智慧解决机器学习的挑战“
机器学习的发展日新月异,但其成功实施的关键之一仍然是获取高质量的、标注良好的数据集。在这篇文章中,我们将探讨如何通过群体智慧来构建和改善机器学习的数据集,尤其是通过reCAPTCHA和带有目的的游戏(Games with a Purpose, GWAP)的方式。
2024-04-05 08:27:21 1174
原创 深入了解时间序列的神奇:RNN、LSTM和GRU
RNN及其变体LSTM和GRU在处理序列数据方面的强大能力,使得它们在许多实际应用中成为不可或缺的工具。尽管存在计算成本高和模型解释性差等挑战,但随着研究的深入和技术的进步,深度学习社区正在不断探索优化这些网络的新方法。未来,我们可以期待这些模型在更多领域内的应用,以及在性能和效率上的进一步提升。
2024-04-04 08:32:48 1198
原创 【机器学习】“强化机器学习模型:Bagging与Boosting详解“
集成学习是一种机器学习范式,旨在通过构建并组合多个模型来解决单一预测问题。它基于一个简单却强大的理念:“三个臭皮匠,顶一个诸葛亮”,或者用西方的谚语来说,“两个头脑胜过一个头脑”。在集成学习的背景下,这意味着多个模型的集成通常会比单个模型的表现要好。集成学习背后的直觉非常直接:不同的模型可能会在不同的数据子集或不同的问题方面表现出优势。通过合理地结合这些模型,可以利用各个模型的优点,从而提高整体的预测准确性。
2024-04-03 08:00:00 2580
原创 【机器学习】揭秘无监督学习:机器如何自我学习发现数据奥秘
无监督学习的目标是发现数据中的自然分组或模式,而不需要任何外部指导或标签。这种学习方式适用于探索性数据分析、自然语言处理、图像识别等领域,能够揭示数据的潜在结构,为进一步的数据分析和决策提供支持。无监督学习以其在未标记数据上发现模式和结构的能力,在机器学习领域占据着举足轻重的地位。通过不断的研究和应用,无监督学习不仅推动了数据科学的发展,也在日常生活中的应用中展现出了其独特的价值。从推荐系统到社交媒体分析,无监督学习正逐渐改变我们理解和利用大数据的方式。
2024-04-02 08:00:00 920
原创 【机器学习】无监督学习与聚类技术:解锁数据的隐藏结构
无监督学习,作为机器学习的一大分支,专注于探索未经标记的数据集中的潜在结构。不同于有监督学习,无监督学习不依赖于外部提供的标签或输出结果,而是通过数据本身的特征来寻找模式、聚类或降维。这种学习方法在多种场景下具有独特价值,尤其是在我们对数据的内在结构了解有限时。无监督学习可以大致分为几种主要类型:数据聚类、降维技术、关联规则学习以及异常检测。这些技术广泛应用于市场细分、社交网络分析、生物信息学、图像处理等领域,帮助我们从大规模数据集中提取有用信息,发现数据之间的相似性和差异性。
2024-04-01 08:00:00 971
原创 【机器学习】超越界限:支持向量机(SVM)揭秘
支持向量机(SVM)是一种功能强大的机器学习算法,适用于解决广泛的问题,从文本和图像分类到生物信息学等。在线性可分的情况下,这意味着找到一条线(在二维空间中)或一个平面(在更高维度中),使得最接近这条线(或平面)的来自不同类别的数据点之间的距离最大。为了处理这种情况,SVM引入了软间隔的概念。核函数SVM通过将数据映射到更高维的特征空间,使得在原始输入空间中线性不可分的数据在新的特征空间中变得线性可分。它的设计初衷是创建一个最大间隔分类器,能够在类别之间建立一个尽可能宽的边界,从而增强模型的泛化能力。
2024-03-31 08:00:00 990
原创 【机器学习】深度解析KNN算法
KNN算法及其衍生方法展示了基于实例的学习在机器学习领域的强大能力和灵活性。通过引入距离加权近邻和局部加权回归,我们可以进一步提升模型的性能,更好地捕获数据中的复杂模式。同时,对懒惰学习和贪婪学习的理解有助于我们根据具体问题选择最合适的学习策略。
2024-03-30 08:00:00 1265
原创 【机器学习】深入探讨基于实例的学习及K-最近邻算法
基于实例的学习,或称案例推理,属于机器学习中的一种懒惰学习方法。不同于在训练阶段构建显式模型的积极学习,懒惰学习算法直到接收到预测请求才开始分类过程,通过在训练数据中查找与新实例最相似的案例来进行预测或分类。基于实例的学习及其代表算法KNN在机器学习领域中占据了重要位置。它们以简单直观的方式提供了解决分类和回归问题的有效手段。尽管面临维度诅咒等挑战,通过合理的策略和优化,KNN算法仍然是一个强大且灵活的工具,能够应对各种复杂的数据分析任务。
2024-03-29 08:00:00 885
原创 【机器学习】贝叶斯学习深度探索:理论、应用与实践指南
在机器学习领域中,贝叶斯学习方法因其独特的先验知识融合能力而显得尤为重要。这一方法不仅强调了数据本身的价值,同时也充分利用了先前积累的知识,从而在解决复杂问题时展现出其独特的优势。本文深入浅出地探讨了清华大学长聘副教授张敏所呈现的贝叶斯学习(II)的精髓,包括其理论基础、实际应用场景以及与其他学习方法的比较分析。
2024-03-27 08:00:00 859
原创 【机器学习】贝叶斯上篇(详解)
贝叶斯学习通过贝叶斯定理结合先验知识和新的观察数据,为我们提供了一种强大的学习和推断框架。无论是在医疗诊断、自然语言处理还是其他机器学习任务中,贝叶斯方法都展现出了其独特的优势。理解和掌握贝叶斯学习的基本原理与方法,对于推动科学技术的进步和解决实际问题具有重要意义。通过这篇博文,我们希望读者能够更深入地理解贝叶斯学习的理论基础及其在各领域的应用。
2024-03-26 08:00:00 994
原创 【机器学习】线性回归(详解)
在统计学和机器学习领域,回归分析是一种重要的方法,用于分析一个或多个自变量(解释变量)与因变量(响应变量)之间的关系。通过建立数学模型,回归分析不仅能预测事件的结果,还能揭示不同变量间的相互影响。比如,在教育领域,通过分析学习平台的交互性、教学资源质量和课程设计对学习满意度的影响,教育机构能够优化其课程和服务,提高学习效果。
2024-03-25 08:00:00 2195
基于集成学习的 Amazon 用户评论质量预测 (数据集+代码+报告)
2024-07-07
AAAI 会议论文聚类分析(数据集+代码+报告)
2024-07-07
基于回归分析的大学综合得分预测(数据集+代码+报告)
2024-07-07
某闯关类手游用户流失预测(数据集+代码+报告)
2024-07-07
基于决策树的英雄联盟游戏胜负预测(数据+代码+报告包含)
2024-07-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人