NLP自然语言处理
文章平均质量分 93
程哥哥吖
路虽远,行则将至;事虽难,做则必成。
展开
-
天猫复购预测训练赛技术报告
逻辑回归[1](Logistic Regression,LR)是一种广义线性回归(Generalized Linear Model),在机器学习中是最常见的一种用于二分类的算法模型。决策树[2](Decision Tree,DT)是一种基本的分类与回归方法,本文主要讨论分类决策树,决策树模型呈树形结构,在分类问题中,表示基于特征对数据进行分类的过程。随机森林[3]原创 2022-10-21 23:34:44 · 4793 阅读 · 7 评论 -
CCF大数据与计算智能大赛训练赛——图书推荐系统技术报告
该赛题为DataFoutain中的一道训练赛题目,赛题任务是依据真实世界中的用户-图书交互记录,利用机器学习相关技术,建立一个精确稳定的图书推荐系统,预测用户可能会进行阅读的书籍。原创 2022-10-21 23:52:07 · 2078 阅读 · 2 评论 -
图神经网络关系抽取论文阅读笔记(六)
首先作者提出了问题,传统的关系抽取是不能很好的解决三元组重叠,上图:从图中可以发现,传统的关系抽取针对Normal类型的数据还是可以的,但是针对EPO和SEO的情况就不怎么行了,首先说下EPO,可以看出同一对实体,在传统的关系抽取下只能抽取出一种关系,比如:要么是Act in 或者 Direct movie的关系,然后说下SEO,按说传统的关系抽取也可以,但是数据分布不均衡,比如有的关系标签很多,有的很少,有的正例很多,有的负利很多,这样导致传统模型不能很好的进行学习。尽管像这样的问题已经有人做了很多研究,原创 2022-12-03 16:52:26 · 1359 阅读 · 1 评论 -
图神经网络关系抽取论文阅读笔记(五)
模型的整体架构如下图所示。r^=argmaxr∈Rp(r∣A−GCN(X,TX))r=r∈Rargmaxp(r∣A−GCN(X,TX))其中Tx是从现成的工具包中获得的x的依赖树,R是关系类型集;P计算给定两个实体的特定关系r的概率,而是r以X和Tx为输入的A-GCN的输出。本文提出了利用依赖信息进行关系提取的A-GCN方法,即对依赖连接应用注意机制,对连接和类型同时施加权重,原创 2022-12-01 10:34:19 · 1196 阅读 · 3 评论 -
图神经网络关系抽取论文阅读笔记(四)
为了解决这个问题,提出了几种先进的图池方法,包括DiffPool (Ying等人2018)、TopKPool (Gao和Ji 2019)、SAGPool (Lee, Lee,和Kang 2019)和StructPool (Y uan和Ji 2019)。信息节点的数量在不同的文本序列中是不同的。为了最小化信息损失,论文将池化过程中创建的中间图的节点表示连接起来,从而得到最终的图 ,类似于学习图的残差连接。由于池中的图具有不同的大小,论文对所有节点只连接其中的节点表示,因此,最终图 的节点与 1 相同。原创 2022-11-28 14:07:11 · 958 阅读 · 0 评论 -
图神经网络关系抽取论文阅读笔记(三)
我们介绍了一种新的注意引导图卷积网络(AGGCNs)。实验结果表明,AGGCNs在各种关系提取任务中都取得了先进的结果。与以前的方法不同,AGGCNs直接操作整个树,并学习以端到端方式从树中提取有用的信息。原创 2022-11-25 10:51:58 · 1212 阅读 · 1 评论 -
图神经网络关系抽取论文阅读笔记(二)
解决了利用GNN与自然语言进行关系推理的问题,提出的模型GP-GNNs通过将自然语言编码为参数并执行层与层之间的传播来解决关系消息传递任务。新模型也可以被认为是解决非文本输入(例如文本,图像,视频,音频)的图生成问题的通用框架,可以实现多模态。在这项工作中,证明了其在预测自然语言和袋级实体之间的关系方面的有效性,并表明通过在推理中考虑更多跃点,关系提取的效果可以得到显着改善。原创 2022-11-23 14:44:12 · 608 阅读 · 0 评论 -
图神经网络关系抽取论文阅读笔记(一)
随着单词和被标记实体之间距离的增加,单词的贡献逐渐减小。最后,将特征向量传入softmax分类器中得到针对每个关系的置信度,置信度最高的关系类型就是预测的两个被标记实体在当前句子中所表达的语义关系。下表中L1 是实体名词1,L2是实体名词2,L3是实体1的上下文,L4是实体名词2的上下文,L5是实体的义原特征。随着预训练语言模型BERT在众多自然语言处理任务中取得的显著效果,研究学者开始将BERT应用到关系分类任务上来,其中最具有代表性的是Wu等人提出的R-BERT模型,模型的整体结构如图所示。原创 2022-11-21 20:37:35 · 621 阅读 · 6 评论 -
图神经网络学习笔记
点(vertex)、边(edge)、全局图(global),图神经网络(GNN,Graph Neural Network)主要作用还是跟传统神经网络的作用一样——每次每个点通过周围点迭代更新自身权重,随着迭代,图神经网络的感受野会越来越大,慢慢的每个点会拥有全局图的特征。图卷积神经网络与卷积神经网络就像老婆与老婆饼、java和javascrit的区别,原理几乎完全不一样,,哪怕100个输入数据格式都不一样,也可以放入GNN进行训练提取特征,输入输出任务可以自己设计。许多点是未知的甚至不确定的,原创 2022-11-18 14:35:57 · 1160 阅读 · 0 评论 -
BERT预训练模型学习笔记
在self-attention中每个词都会考虑整个序列的加权,所以其出现位置并不会对结果产生什么影响,相当于放哪都无所谓,但是这跟实际就有些不符合了,我们希望模型能对位置有额外的认识。对于输入的数据,你的关注点是什么?一组q,k,v得到了一组当前词的特征表达;将所有特征拼接在一起;每个词的Attention计算,每个词的Q会跟整个序列中每一个K计算得分,然后基于得分再分配特征。构建三个矩阵分别来查询当前词跟其他词的关系,以及特征向量的表达。[seq]:两个句子之前的连接符,[cls]:表示要做分类的向量。原创 2022-11-15 15:10:36 · 524 阅读 · 0 评论 -
NLP自然语言处理学习笔记(十二)(转自咕泡AI)
前面的课程中为了完成一个问答机器人,我们先进行了召回,相当于是通过海选的方法找到呢大致相似的问题。通过现在的排序模型,我们需要精选出最相似的哪一个问题,返回对应的答案//chatbot.proto 文件//用户id//当前用户传递的消息//当前消息发送的时间}//返回给用户的消息//返回给用户的时间}}原创 2022-11-12 12:52:09 · 460 阅读 · 0 评论 -
HMM和MEMM+CRF序列标注学习笔记
自动机:(又称为 有限自动机,有限状态自动机,FSA)是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。例如:我们常用的正则表达式就是一种用来描述字符串出现字符的自动机。假如我们有正则表达式:,表示的是ba后面有1个或这多个a,最后是一个感叹号。我们可以把上述的自动机用图来展示,如下:自动机从初始状态q0开始,反复进行下面的过程:找到第一个字母b,如果找到b那么进入到下一个状态,再去寻找下一个状态需要的字母,指导进行接收状态q4。我们可以使用状态转移表来自动机:上述的状态机我们也称为确定的自动原创 2022-11-09 13:24:54 · 621 阅读 · 0 评论 -
NLP自然语言处理学习笔记(十一)(转自咕泡AI)
pysparnn是一个对sparse数据进行相似邻近搜索的python库,这个库是用来实现 高维空间中寻找最相似的数据的。前面我们使用的pysparnn使用的是一种cluster pruning(簇修剪)的技术,即,开始的时候对数据进行聚类,后续再有限个类别中进行数据的搜索,根据计算的余弦相似度返回结果。随机选择N\sqrt{N}N个样本作为leader选择非leader的数据(follower),使用余弦相似度计算找到最近的leader。原创 2022-11-07 14:23:50 · 317 阅读 · 0 评论 -
NLP自然语言处理学习笔记(十)(转自咕泡AI)
在普通的RNN结构中,Encoder需要把一个句子转化为一个向量,然后在Decoder中使用,这就要求Encoder把源句子中所有的信息都包含进去,但是当句子长度过长的时候,这个要求就很难达到,或者说会产生瓶颈(比如,输入一篇文章等场长内容),当然我们可以使用更深的RNN和大多的单元来解决这个问题,但是这样的代价也很大。那么有没有什么方法能够优化现有的RNN结构呢?为此,Bahdanau等人在2015年提出了Attenion机制,Attention翻译成为中文叫做注意力,把这种模型称为。原创 2022-11-04 15:48:41 · 287 阅读 · 0 评论 -
NLP自然语言处理学习笔记(九)(转自咕泡AI)
在项目准备阶段我们知道,用户说了一句话后,会判断其意图,如果是想进行闲聊,那么就会调用闲聊模型返回结果,这是我们会在项目中实现的功能。目前市面上的常见闲聊机器人有这种类型的模型,很久之前还有这种体验更差的模型常见的闲聊模型都是一种seq2seq的结构,在后面的课程中我们会学习并使用seq2seq来实现我们的闲聊机器人是由和两个RNN的组成的。其中encoder负责对输入句子的理解,转化为,decoder负责对理解后的句子的向量进行处理,解码,获得输出。上述的过程和我们大脑理解东西的过程很相似,那么此时,就有原创 2022-11-03 14:54:03 · 649 阅读 · 1 评论 -
NLP自然语言处理学习笔记(八)(转自咕泡AI)
fastText是一个单词表示学习和文本分类的库优点:在标准的多核CPU上, 在10分钟之内能够训练10亿词级别语料库的词向量,能够在1分钟之内给30万多类别的50多万句子进行分类。fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。哈夫曼树概念:给定n个权值作为n个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。原创 2022-10-28 18:09:55 · 266 阅读 · 1 评论 -
NLP自然语言处理学习笔记(七)(转自咕泡AI)
能够说出实现聊天机器人的需求能够说出实现聊天机器人的流程对句子进行分词之后,句子中不重要的词。原创 2022-10-26 18:53:33 · 521 阅读 · 0 评论 -
NLP自然语言处理学习笔记(六)(转自咕泡AI)
为什么有了神经网络还需要有循环神经网络?在普通的神经网络中,信息的传递是单向的,这种限制虽然使得网络变得更容易学习,但在一定程度上也减弱了神经网络模型的能力。特别是在很多现实任务中,网络的输出不仅和当前时刻的输入相关,也和其过去一段时间的输出相关。此外,普通网络难以处理时序数据,比如视频、语音、文本等,时序数据的长度一般是不固定的,而前馈神经网络要求输入和输出的维数都是固定的,不能任意改变。因此,当处理这一类和时序相关的问题时,就需要一种能力更强的模型。原创 2022-10-25 10:11:11 · 339 阅读 · 0 评论 -
NLP自然语言处理学习笔记(五)(转自咕泡AI)
就是通常所说的分词,分出的每一个词语我们把它称为token。jieba分词:https://github.com/fxsjy/jieba为了对前面的word embedding这种常用的文本向量化的方法进行巩固,这里我们会完成一个文本情感分类的案例现在我们有一个经典的数据集IMDB,这是一份包含了5万条流行电影的评论数据,其中训练集25000条,测试集25000条。数据格式如下:下图左边为名称,其中名称包含两部分,分别是序号和情感评分,(1-4为neg,5-10为pos),右边为评论内容。原创 2022-10-23 15:57:10 · 255 阅读 · 0 评论 -
NLP自然语言处理学习笔记(四)(转自咕泡AI)
黑白图片的通道数只有1,其中每个像素点的取值为[0,255],彩色图片的通道数为(R,G,B),每个通道的每个像素点的取值为[0,255],三个通道的颜色相互叠加,形成了各种颜色。模型的构建使用了一个三层的神经网络,其中包括两个全连接层和一个输出层,第一个全连接层会经过激活函数的处理,将处理后的结果交给下一个全连接层,进行变换后输出结果。给定均值:mean,shape和图片的通道数相同(指的是每个通道的均值),方差:std,和图片的通道数相同(指的是每个通道的方差),将会把。原创 2022-10-20 23:46:06 · 227 阅读 · 0 评论 -
NLP自然语言处理学习笔记(三)(转自咕泡AI)
每次迭代都需要把所有样本都送入,这样的好处是每次迭代都顾及了全部的样本,做的是全局最优化,但是有可能达到局部最优。在torch中提供了数据集的基类,继承这个基类,我们能够非常快速的实现对数据的加载。__len__方法,能够实现通过全局的len()方法获取其中的元素个数方法,能够通过传入索引的方式获取数据,例如通过dataset[i]获取其中的第i条数据MNIST是由Yann LeCun。原创 2022-10-19 23:53:27 · 253 阅读 · 0 评论 -
NLP自然语言处理学习笔记(二)(转自咕泡AI)
或者可以理解为,这个tensor是一个参数,后续会被计算梯度,更新该参数。就是根据损失函数,对参数(requires_grad=True)的去计算他的梯度**,并且把它累加保存到。这个模块增加了对CUDA tensor的支持,能够在cpu和gpu上使用相同的方法操作tensor。那么,在最开始随机设置x的值的过程中,需要设置他的requires_grad属性为True,其。下面,我们使用一个自定义的数据,来使用torch实现一个简单的线性回归。的可训练的参数,但是我们不需要在此过程中对他们进行梯度计算。原创 2022-10-18 23:46:03 · 179 阅读 · 0 评论 -
NLP自然语言处理学习笔记(一)(转自咕泡AI)
知道神经网络的概念知道什么是神经元知道什么是单层神经网络知道什么是感知机知道什么是多层神经网络知道激活函数是什么,有什么作用理解神经网络的思想。原创 2022-10-17 16:13:53 · 512 阅读 · 0 评论