深入浅出讲解自然语言处理
文章平均质量分 82
本专栏聚焦于自然语言处理领域的经典算法,将持续更新,欢迎订阅~
有梦想的程序星空
人工智能领域硕士,先后在互联网大厂、研究所工作,深耕软件开发、机器学习、数据挖掘、NLP、移动开发等领域,有较丰富的软件、人工智能的研究和开发经验。
展开
-
【RAG】浅谈大模型之RAG技术(原理、架构)
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了检索和生成的深度学习模型架构。原创 2024-09-14 11:18:50 · 345 阅读 · 0 评论 -
【四范式】浅谈NLP发展的四个范式
NLP发展到今天已经进入到了LLM(大语言模型)的时代,学术界按发展时间线将NLP归纳到四个范式,即NLP四范式。原创 2024-09-13 16:11:23 · 512 阅读 · 0 评论 -
【提示词】浅谈GPT等大模型中的Prompt
Prompt是人工智能(AI)提示词,是一种利用自然语言来指导或激发人工智能模型完成特定任务的方法。原创 2024-09-13 15:20:03 · 690 阅读 · 0 评论 -
【LoRA】浅谈大模型微调之LoRA技术
LoRA,英文全称Low-Rank Adaptation of Large Language Models,是一种用于微调大型语言模型的低秩适应技术,由微软的研究人员于 2021 年提出,这种技术能够利用少量显卡和时间对大模型进行微调,降低成本。原创 2024-09-12 15:36:14 · 424 阅读 · 0 评论 -
【特点】浅谈大模型的特点
大模型是指利用海量数据,通过先进的算法和技术,训练得到的具有强大预测和决策能力的模型,这类模型具备了强大的语言理解和生成能力,能够完成各种复杂的自然语言处理任务。原创 2024-09-11 17:20:15 · 288 阅读 · 0 评论 -
【监督微调】浅谈大模型之SFT技术
SFT(监督微调,Supervised Fine-Tuning)是一个在机器学习和自然语言处理领域中常用的术语,指对已经预训练的模型进行特定任务的训练,以提高其在该任务上的表现。原创 2024-09-11 15:51:37 · 552 阅读 · 0 评论 -
【智能体】浅谈大模型之AI Agent
AI Agent是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,具有自主理解、感知、规划、记忆和使用工具的能力。原创 2024-09-10 16:50:23 · 366 阅读 · 0 评论 -
【PPO】浅谈ChatGPT等大模型中的PPO算法
PPO(Proximal Policy Optimization)是一种用于策略优化的强化学习算法,由John Schulman等人在2017年提出。旨在提高训练的稳定性和效率。它的目标是找到一个策略,使得根据这个策略采取行动可以获得最大的累积奖励。原创 2024-09-09 16:39:33 · 1301 阅读 · 0 评论 -
【应用】浅谈大模型的应用场景
在人工智能(AI)的发展历程中,大模型无疑是一个重要的里程碑。这类模型通过海量数据的训练,其参数量都达到了千亿甚至万亿的规模,具备了强大的语言理解和生成能力,能够完成各种复杂的自然语言处理任务。原创 2024-09-06 17:24:03 · 308 阅读 · 0 评论 -
【RLHF】浅谈ChatGPT 等大模型中的RLHF算法
随着OpenAI 推出的ChatGPT 等大模型的发布,大语言模型(Large Language Models,LLMs)的浪潮席卷而来,并逐渐走进千家万户,掀起了新的 AI 热潮,ChatGPT 是 InstructGPT 的衍生,它的新颖之处在于将人类反馈纳入到训练过程之中,以便让模型输出更好地与用户的意图保持一致。原创 2024-09-06 16:20:40 · 1014 阅读 · 0 评论 -
【GPT】深入浅出讲解大模型之GPT系列(InstructGPT、ChatGPT、GPT-4)
GPT模型在现代NLP中扮演着重要角色,因为它们极大地推动了机器在理解和生成自然语言方面的能力。从自动文本生成到情感分析,再到复杂的对话系统,GPT的应用范围广泛,它们在提高机器与人类之间交流的自然性和流畅性方面起到了关键作用。原创 2024-09-05 16:30:38 · 647 阅读 · 0 评论 -
【GPT】深入浅出讲解大模型之GPT系列(GPT-1、GPT-2、GPT-3)
GPT(Generative Pre-trained Transformer)是一个由OpenAI开发的自然语言处理模型,它代表了人工智能领域的一次重大突破。GPT模型的核心是Transformer架构,这是一种使用自注意力机制的深度学习模型,能够捕捉输入数据中长距离的依赖关系。Transformer的设计允许模型在处理序列数据时,能够同时考虑到序列中各个元素的上下文信息,这对于理解和生成自然语言至关重要。原创 2024-09-05 16:19:27 · 548 阅读 · 0 评论 -
浅谈人工智能与大模型
随着科技的飞速发展,人工智能(Artificial Intelligence,简称AI)已经成为了我们生活中不可或缺的一部分。人工智能是指通过计算机程序或机器来模拟、扩展和增强人类的智能行为。而大模型通常是指那些规模庞大、参数众多的机器学习模型,它们能够处理复杂任务,并在学习过程中表现出卓越的性能。两者既相关又存在区别,理解它们有助于增强我们对智能科学的认识。原创 2024-09-04 16:18:51 · 742 阅读 · 0 评论 -
【向量范数】详解常用的向量范数
对应于闵可夫斯基距离(Minkowski distance),假设维向量,其Lp范数记作,定义为:假设维向量,其L0范数记作,定义为:L0范数表示向量中非零项的个数,当P=1时,也就是L1范数,对应曼哈顿距离(Manhattan distance),假设维向量,其L1范数记作,定义为: L1范数表示向量中各个元素绝对值之和,L2范数是最常用的范数,它表示从原点出发到向量确定的点的欧几里得距离。可用于优化正则化项,避免过拟合。无穷范数主要被用来度量向量中元素的最大值。...原创 2022-07-05 10:09:48 · 7449 阅读 · 0 评论 -
TensorFlow简介及下载地址
TensorFlow是谷歌开源的一款深度学习框架。最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来,用于机器学习和深度神经网络方面的研究,但这个系统的通用性使其也可广泛用于其他计算领域。2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源。TensorFlow2发布于2019年,TensorFlow2.0.0正式稳定版发布于2019年10月1日,而今,TensorFlow已被很多企业与创业公司广泛用于自动化工作任务和开发新系统,其在分布式原创 2022-06-30 14:17:13 · 2152 阅读 · 0 评论 -
【最大似然估计】详解概率论之最大似然估计
最大似然估计(Maximum Likelihood Estimation,简称MLE)。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定。利用已知样本结果(统计概率)反推最有可能导致这样结果的参数值。.........原创 2022-06-21 08:50:33 · 16951 阅读 · 0 评论 -
【概率密度函数】简介概率论中的概率密度函数
概率密度函数(Probability Density Functions,简称PDF),概率密度函数是概率论里面最重要的概念之一。定义:设为一随机变量,若存在非负实函数,使对任意实数,有:则称为连续随机变量,称为的概率密度函数,简称概率密度或密度函数。概率密度函数具有如下性质:(1)非负性:(2)规范性: 条件概率密度函数:对于任意给定的,在给定区间内,条件概率密度函数都有如下公式成立:密度函数与分布函数的关系:(1)积分关系:(2)导数关系:若在处连续,。...原创 2022-06-20 13:38:02 · 16617 阅读 · 0 评论 -
【分布函数】详解常用的分布函数(均匀分布、正态分布、泊松分布等)
概率密度函数(Probability Density Functions,简称PDF),概率密度函数是概率论里面最重要的概念之一。定义:设为一随机变量,若存在非负实函数,使对任意实数,有:则称为连续随机变量,称为的概率密度函数,简称概率密度或密度函数。连续型随机变量的分布函数:详解常用的分布函数(均匀分布、指数分布、二项分布、正态(高斯)分布、泊松分布等)。.........原创 2022-06-20 13:26:59 · 58274 阅读 · 3 评论 -
【梯度下降法】详解优化算法之梯度下降法(原理、实现)
梯度下降法(Gradient descent,简称GD)是一阶最优化算法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点,这个过程则被称为梯度上升法。梯度下降法是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降法和最小二乘法是最常采用的方法。在求解损失函数的最小值时,可以通过梯度下降法来迭代求解,原创 2022-06-15 16:30:43 · 53093 阅读 · 1 评论 -
【主成分分析】详解常用的降维方法-主成分分析(PCA)算法
主成分分析(PCA)是一种常用的无监督学习方法,利用正交变换把由线性相关变量表示的观测数据转换为几个由线性无关变量表示的数据。线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以PCA是一种降维算法。主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。.........原创 2022-06-10 16:33:32 · 9896 阅读 · 4 评论 -
【聚类】详解常用的聚类算法(K-Means、DBSCAN等)
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类是一种运用广泛的探索性数据分析技术,人们对数据产生的第一直觉往往是通过对数据进行有意义的分组,通过对对象进行分组,使相似的对象归为一类,不相似的对象归为不同类。常见的聚类算法有kmeans、DBSCAN、谱聚类。在无监督学习中,目标通过对无标记数据训练样本的学习来揭示数据内在的性质规律,将数据集中的样本划分为多个不相交的子集。......原创 2022-06-09 17:01:40 · 7859 阅读 · 0 评论 -
【相似度计算】详解文本相似度计算(介绍、公式)
相似度算法主要任务是衡量对象之间的相似程度,是信息检索、推荐系统、数据挖掘等的一个基础性计算。现有的关于相似度计算的方法,基本上都是基于向量的,也即计算两个向量之间的距离,距离越近越相似。欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离),在二维和三维空间中的欧氏距离就是两点之间的实际距离。欧氏距离是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离,当数据很稠密并且连续时,这是一种很原创 2022-06-08 14:51:17 · 12603 阅读 · 3 评论 -
【决策树】深入浅出讲解决策树算法(原理、构建)
最早的决策树算法是由Hunt等人于1966年提出,Hunt算法是许多决策树算法的基础,包括ID3、C4.5和CART等。决策树算法是一种有监督学习算法,利用分类的思想,根据数据的特征构建数学模型,从而达到数据的筛选,决策的目标。 决策树( Decision Tree) 又称为判定树,是数据挖掘技术中的一种重要的分类与回归方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。一般,一棵原创 2022-06-06 15:26:20 · 41412 阅读 · 0 评论 -
【朴素贝叶斯】深入浅出讲解朴素贝叶斯算法(公式、原理)
朴素贝叶斯(Naive Bayes)是一种简单经典的分类算法,它的经典应用案例为人所熟知:文本分类(如垃圾邮件过滤)。条件概率:记事件A发生的概率为P(A),事件B发生的概率为P(B),则在B事件发生的前提下,A事件发生的概率即为条件概率,记为P(A|B)。原创 2022-06-02 14:11:25 · 47467 阅读 · 6 评论 -
【随机森林】深入浅出讲解随机森林算法
随机森林由Leo Breiman(2001)提出的一种分类算法,它通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于独立抽取的样本。原创 2022-06-01 17:25:26 · 5672 阅读 · 0 评论 -
【RNN】深入浅出讲解循环神经网络(介绍、原理)
1、RNN的背景前馈神经网络不考虑数据之间的关联性,网络的输出只和当前时刻网络的输入相关。然而在解决很多实际问题的时候我们发现,现实问题中存在着很多序列型的数据(文本、语音以及视频等),现实场景如室外的温度是随着气候的变化而周期性的变化的,以及我们的语言也需要通过上下文的关系来确认所表达的含义。这些序列型的数据往往都是具有时序上的关联性的,既某一时刻网络的输出除了与当前时刻的输入相关之外,还与之前某一时刻或某几个时刻的输出相关。而前馈神经网络并不能处理好这种关联性,因...原创 2022-05-31 17:23:26 · 52600 阅读 · 1 评论 -
【LSTM】深入浅出讲解长短时记忆神经网络(结构、原理)
1、LSTM的背景介绍长短时记忆神经网络(Long Short-term Memory Networks,简称LSTM)是特殊的RNN,尤其适合顺序序列数据的处理,LSTM 由 Hochreiter & Schmidhuber (1997) 提出,并在近期被 Alex Graves 进行了改良和推广,LSTM明确旨在避免长期依赖性问题,成功地解决了原始循环神经网络的缺陷,成为当前最流行的RNN,在语音识别、图片描述、自然语言处理等许多领域中成功应用。2、RNN的不足图...原创 2022-05-26 11:19:53 · 46026 阅读 · 1 评论 -
【CNN】深入浅出讲解卷积神经网络(介绍、结构、原理)
1、卷积神经网络的背景介绍卷积神经网络(Convolutional Neural Networks, 简称CNN)是一种具有局部连接、权值共享等特点的深层前馈神经网络Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一,擅长处理图像特别是图像识别等相关机器学习问题,比如图像分类、目标检测、图像分割等各种视觉任务中都有显著的提升效果,是目前应用最广泛的模型之一。卷积神经网络具有表征学习(representation learning)能力,能原创 2022-05-24 13:00:31 · 81671 阅读 · 2 评论 -
深入浅出讲解梯度消失和梯度爆炸问题(原因、解决方法)
1.梯度消失和梯度爆炸产生的原因:传统的神经网络通常是基于BP算法优化权重参数的,即通过损失函数计算的误差通过梯度反向传播的方式对神经网络中的权重进行更新,其中用到的是连乘形式的链式法则。梯度消失:产生的原因基本上是网络太深或是采用了不恰当的损失函数,如sigmoid函数、tanh函数等。由于sigmoid函数的导数最大值是0.25,因而通过链式法则,导致靠近输入层的权重更新缓慢甚至停...原创 2020-03-19 16:52:37 · 3022 阅读 · 2 评论 -
【关系抽取】深入浅出讲解实体关系抽取(介绍、常用算法)
关系抽取(Relation Extraction,简称RE)的概念是1988年在MUC大会上提出,是信息抽取的基本任务之一,目的是为了识别出文本实体中的目标关系,是构建知识图谱的重要技术环节。知识图谱是语义关联的实体,它将人们对物理世界的认知转化为计算机能够以结构化的方式理解的语义信息。关系抽取通过识别实体之间的关系来提取实体之间的语义关系。在现实世界中,关系的提取要比实体提取复杂得多,自然句子的形式也多种多样,所以关系的提取比实体提取困难得多。原创 2022-05-18 17:28:27 · 27601 阅读 · 1 评论 -
【BERT】深入浅出讲解BERT算法
1.预训练模型简介在之前的文章中,我们介绍了非常有名的BiLSTM-CRF算法,其算法性能和精确度是鹤立鸡群,下面我们介绍Google推出的“王炸级”预训练模型Bert算法,其在NLP任务中刷新了多项记录,并取得state of the art的成绩。Bert(Bidirectional Encoder Representations from Transformers)算法,顾名思义,是...原创 2020-03-22 22:33:45 · 11430 阅读 · 0 评论 -
【入门书籍】新手入门机器学习,强烈推荐这几本书籍
近年来,人工智能非常火热,几乎涉及到了生活中的方方面面:语音识别、人脸检测、自然语言处理、数据挖掘、推荐系统、游戏、智能机器人、智能医疗、智慧城市等等。机器学习算法是人工智能的核心,是使得计算机系统具有智能的根本途径,赋予计算机推理、学习和解决问题的能力。可见进入AI领域,机器学习技能就是敲门砖,那么新手该如何入门机器学习、数据挖掘领域呢?正所谓要想建高楼,得先打好地基,机器学习算法涉及到...原创 2020-03-14 16:55:25 · 5755 阅读 · 1 评论 -
【实体识别】深入浅出讲解命名实体识别(介绍、常用算法)
命名实体识别(Named Entity Recognition, 简称NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。命名实体识别是自然语言处理中的热点研究方向之一, 目的是识别文本中的命名实体并将其归纳到相应的实体类型中。命名实体识别是NLP中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。从自然语言处理的原创 2022-05-10 16:35:05 · 27787 阅读 · 1 评论 -
【知识图谱】深入浅出讲解知识图谱(技术、构建、应用)
知识图谱的背景 2012 年 5 月 17 日,Google 正式提出了知识图谱(Knowledge Graph)的概念,其初衷是为了优化搜索引擎返回的结果,改善用户的搜索质量以及搜索体验。当前的人工智能技术其实可以简单地划分为感知智能(主要是图像、视频、语音、文字等识别)和认知智能(涉及知识推理、因果分析等),知识图谱技术就是认知智能领域中的主要技术,是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。 知识图谱的定义和三要素 知识图谱(Knowledg..原创 2022-05-10 14:02:32 · 15101 阅读 · 2 评论 -
深入浅出讲解神经网络的种类及举例说明
1.神经网络的分类大体上,神经网络分为三种:前馈神经网络、反馈神经网络和图网络。2.前馈神经网络前馈神经网络(feedforward neural network)是一种简单的神经网络,也被称为多层感知机(multi-layer perceptron,简称MLP),其中不同的神经元属于不同的层,由输入层-隐藏层-输出层构成,信号从输入层往输出层单向传递,中间无反馈,其目的是为了拟合某个...原创 2020-03-20 13:52:08 · 20717 阅读 · 0 评论 -
【序列标注】NLP序列标注常用方式:BIO和BIOES标注法
NLP中的序列标注方式常用的有两种:BIO标注法和BIOES标注法。BIO标注法:B-begin,代表实体的开头I-inside,代表实体的中间或结尾O-outside,代表不属于实体BIOES标注法:B-begin,代表实体的开头I-inside,代表实体的中间O-outside,代表非实体,用于标记无关字符E-end,代表实体的结尾S-single,代表单个字符,本身就是一个实体......原创 2021-02-22 15:18:37 · 19797 阅读 · 4 评论 -
深入浅出讲解RNN和Transformer算法
1.简述通常,在自然语言生成任务(机器翻译,文本摘要,对话系统等)中,RNN和Transfomer都是常用的算法。下面,我们浅谈下采用RNN和Transformer的区别。2.RNN模型简介:相比于词袋模型和前馈神经网络模型,RNN可以考虑到词的先后顺序对预测的影响,RNN包括三个部分:输入层、隐藏层和输出层。相对于前馈神经网络,RNN可以接收上一个时间点的隐藏状态,基本结构图如下:...原创 2020-03-19 15:50:11 · 9798 阅读 · 0 评论 -
深入浅出讲解seq2seq中的Attention机制
1.Attention机制的提出:Attention模型最早是在计算机视觉领域提出,首次用于解决nlp问题在2014年[1]。由于seq2seq中的原始输入序列中的单词对于目标输出序列的重要性程度是一致的,当输入序列过长时,此模型的效果将会降低。比如,在机器翻译方面,对于输入序列为“自”,“然”,“语”,“言”,生成的输出序列为“Natural”,“Language”。事实上,我们发现,“...原创 2020-03-16 14:26:04 · 1223 阅读 · 0 评论 -
【BiLSTM-CRF】深入浅出讲解BiLSTM-CRF算法
1.BiLSTM-CRF简介:在NLP领域中,分词、词性标注、序列标注、命名实体识别等是科研和工程中经常遇到的任务,其中BiLSTM-CRF是用来解决这些任务的非常流行的算法,本文将简单介绍下BiLSTM-CRF算法的原理。论文地址:https://arxiv.org/pdf/1603.01360.pdf,论文题目为:Neural Architectures for Named Entit...原创 2020-03-13 11:30:08 · 15413 阅读 · 0 评论 -
【seq2seq】深入浅出讲解seq2seq神经网络模型
1.Seq2seq背景:经典的循环神经网络模型的输入序列以及输出序列要求是等长的,然而在机器翻译中,如输入序列:“机器学习”,输出序列:“Machine Learning”,输入输出序列不等长,循环神经网络就不能满足这样的情况。Seq2seq可以用来处理输入输出序列不等长的问题,是一种特殊的RNN模型。2.Seq2seq概述:Seq2seq是一种编码(Encoder)-解码(Decoder)的...原创 2020-03-12 14:36:06 · 6766 阅读 · 0 评论