深度学习
飞驰的拖鞋
这个作者很懒,什么都没留下…
展开
-
多分类评价指标:准确率、精确率、召回率、F1值
多分类评价指标:准确率、精确率、召回率、F1值原创 2022-11-07 21:10:46 · 625 阅读 · 0 评论 -
K值交叉验证
k-折交叉验证原创 2022-11-07 21:09:54 · 267 阅读 · 1 评论 -
个性化推荐算法总结
个性化推荐算法总结原创 2022-09-16 17:14:59 · 275 阅读 · 0 评论 -
多轮对话moxing
多轮对话nlp原创 2022-09-16 16:33:22 · 385 阅读 · 0 评论 -
深度学习:标签平滑(Label Smoothing Regularization)
深度学习:标签平滑(Label Smoothing Regularization)原创 2022-09-16 15:34:55 · 358 阅读 · 0 评论 -
中文知识图谱开放数据集
中文知识图谱开放数据集原创 2022-08-19 17:24:22 · 471 阅读 · 0 评论 -
反向传播——通俗易懂
反向传播——通俗易懂****原创 2021-11-11 22:44:09 · 218 阅读 · 0 评论 -
方向导数与梯度
直观理解梯度,以及偏导数、方向导数和法向量等微积分II 方向导数与梯度向量 14.5 (12)原创 2021-11-06 23:01:55 · 215 阅读 · 0 评论 -
标注工具介绍
标注工具(labelimage的安装)标注工具Labelme安装教程目标检测开源软件LabelImg的使用图像标注工具Labelme和LabelImg如何使用文本标注工具——doccano?doccano/doccano原创 2021-10-15 11:32:44 · 388 阅读 · 0 评论 -
PyTorch-Adam优化算法原理,公式,应用
参考:PyTorch-Adam优化算法原理,公式,应用原创 2021-06-18 22:39:30 · 501 阅读 · 0 评论 -
一文搞懂RMSProp优化算法
参考:一文搞懂RMSProp优化算法原创 2021-06-18 22:38:38 · 593 阅读 · 0 评论 -
AdaGrad
参考:pytorch学习笔记(三十六):AdaGrad原创 2021-06-17 23:09:09 · 138 阅读 · 0 评论 -
动量法。。。。
参考:深度学习优化函数详解原创 2021-06-16 08:32:01 · 56 阅读 · 0 评论 -
卷积神经网络---关系抽取代码
参考:卷积神经网络在自然语言处理的应用 | 附源码原创 2021-04-29 17:28:25 · 525 阅读 · 0 评论 -
卷积神经网络---文本分类原理及代码
参考:基于卷积神经网络的中文文本分类文本分类的卷积神经网络原创 2021-04-29 17:24:10 · 487 阅读 · 0 评论 -
卷积神经网络---大话CNN经典模型:LeNet
参考:大话CNN经典模型:LeNet原创 2021-04-29 15:06:09 · 107 阅读 · 0 评论 -
卷积神经网络----大话CNN
参考:大话卷积神经网络原创 2021-04-29 14:49:52 · 79 阅读 · 0 评论 -
卷积神经网络 -- 互相关运算 vs 卷积运算/特征图和感受野
参考:卷积神经网络 – 互相关运算 vs 卷积运算/特征图和感受野原创 2021-04-29 11:45:31 · 277 阅读 · 0 评论 -
一文搞懂激活函数(Sigmoid/ReLU/LeakyReLU/PReLU/ELU)
参考:一文搞懂激活函数(Sigmoid/ReLU/LeakyReLU/PReLU/ELU)原创 2021-04-14 17:49:31 · 130 阅读 · 0 评论 -
深度学习中的全连接层详细讲解
下面用一个简单的网络具体介绍一下推导过程其中,x1、x2、x3为全连接层的输入,a1、a2、a3为输出,,有可以写成如下矩阵形式:参考:对于卷积神经网络中全连接层的理解原创 2021-03-24 19:10:41 · 1164 阅读 · 0 评论 -
PyTorch 中的 LSTM模型参数解释
PyTorch 中的 LSTM模型参数解释原创 2021-03-24 19:05:39 · 218 阅读 · 0 评论 -
pytorch总结(一)torch.nn模块使用详解
torch.nn模块使用详解torch.nn为我们提供了更多的类和模块来实现和训练神经网络原创 2021-03-24 17:04:31 · 1323 阅读 · 0 评论 -
LDA(Latent Dirichlet Allocation)主题模型
参考 LDA主题模型原创 2021-03-24 11:29:48 · 94 阅读 · 0 评论 -
关系抽取---(三)基于文本的卷积神经网络(Text-CNN)的关系抽取
数据处理Text-CNN的结构Text-CNN的训练Text-CNN应用于关系抽取参考:https://blog.csdn.net/qq_36426650/article/details/84668741?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2aggregatepagefirst_rank_v2~rank_aggregation-6-84668741.pc_agg_rank_aggregation&am原创 2021-03-22 18:39:35 · 977 阅读 · 0 评论 -
关系抽取---(二)卷积神经网络
卷积运算卷积神经网络主要通过卷积运算来实现对多维数据的处理,例如对一副图像数据,其像素为6x6,通过设计一个卷积核(或称过滤器)filter来对该图形数据进行扫描,卷积核可以实现对数据的过滤,例如下面例子中的卷积核可以过滤出图像中的垂直边缘,也称为垂直边缘检测器。 例如假设矩阵: 表示一个原始图像类数据,选择卷积核(垂直边缘检测器):然后从原始图像左上方开始,一次向右、向下进行扫描,扫描的窗口为该卷积核,每次扫描时,被扫描的9个数字分别与卷积核对应的数字做乘积(element-wise),并原创 2021-03-22 17:40:48 · 283 阅读 · 0 评论 -
关系抽取(一)
基于依存句法分析的关系抽取对于关系抽取问题,基于依存关系的关系抽取模型中,关系词并非是预先设置的类别,而是存在于当前的句子中。例如“马云在杭州创办了阿里巴巴”,预定义的关系可能是“创始人”,而“创始人”一词在句子中不存在,但是句中存在一个与其相似的词“创办”。因此在句法分析中,能够提取出核心词“创办”,该词前面有一个名词“杭州”,而“杭州”前面有一个介词“在”,因此“在杭州”是一个介宾短语,依存路径被标记为POB,所以“杭州”不是“创办”的主语,自然是“马云”。“创办”一词后面是助词“了”可以省略,再往后原创 2021-03-22 16:36:32 · 360 阅读 · 0 评论 -
elmo模型详解
elmo模型结构如下所示是elmo模型结构图:在输入中可以采用worc2vec模型 训练的词向量。其实总的来说,elmo模型就是若干bilstm的堆积,然后训练得到的,对于某一个单词[公式],一个L层的双向语言模型biLM由2L+1个向量表示:x为char-level初始词向量,前后向h分别为前后向lstm的输出,ELMo将多层的biLM的输出R整合成一个向量:再将 R 向量正则化后,输入softmax层,作为学到的一组权重elmo模型的使用ELMo通过将隐藏状态(和初始嵌入)以某原创 2021-03-18 15:04:35 · 2185 阅读 · 0 评论 -
bert代码使用详解
接下来将为大家介绍bert代码的详细解释敬请期待~~~~~~~~~~~~~~~原创 2021-03-18 14:21:04 · 340 阅读 · 0 评论 -
BERT 模型详解
BERT 结构上图是 BERT 的结构图,左侧的图表示了预训练的过程,右边的图是对于具体任务的微调过程BERT 的输入BERT 的输入可以包含一个句子对 (句子 A 和句子 B),也可以是单个句子。同时 BERT 增加了一些有特殊作用的标志位:[CLS] 标志放在第一个句子的首位,经过 BERT 得到的的表征向量 C 可以用于后续的分类任务。[SEP] 标志用于分开两个输入句子,例如输入句子 A 和 B,要在句子 A,B 后面增加 [SEP] 标志。[MASK] 标志用于遮盖句子中的一些单词,原创 2021-03-18 14:20:00 · 5251 阅读 · 0 评论 -
transformer:self-attention 自注意力机制详解
self-attention 计算过程Thinking 和 Machines是同一组输入(同一句话)中的某两个输入(某两个单词),x是上下文无关的词向量1. 根据原词向量依次计算queries,Keys,Values其中,WQ,WK,W^V是待训练的参数2. 计算scores每个q_i都算出n个score,即(1,n)的scores向量其中,d_k是超参数(这里取64),为了让后面的计算中具有稳定的梯度3. 计算(能句子中的长依赖关系)的新向量对于某个词向量,softmax(sco原创 2021-03-18 11:41:24 · 1513 阅读 · 0 评论 -
Attention Model详解
在Encoder-Decoder框架中,在预测每一个yi时对应的语义编码c都是一样的,也就意味着无论句子X中的每个单词对输出Y中的每一个单词的影响都是相同的。这样就会产生两个弊端:一是语义向量无法完全表示整个序列的信息,再者就是先输入的内容携带的信息会被后输入的信息稀释掉,或者说,被覆盖了。输入序列越长,这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息, 那么解码的准确度自然也就要打个折扣了。 为了解决上面的弊端,就需要用到我们的Attention Model(注意力模型)来解决原创 2021-03-18 10:41:31 · 403 阅读 · 0 评论 -
Seq2Seq 模型详解
Seq2Seq 是一种重要的 RNN 模型,也称为 Encoder-Decoder 模型,可以理解为一种 N×M 的模型。模型包含两个部分:Encoder 用于编码序列的信息,将任意长度的序列信息编码到一个向量 c 里。而 Decoder 是解码器,解码器得到上下文信息向量 c 之后可以将信息解码,并输出为序列。Seq2Seq 模型结构有很多种,下面是几种比较常见的:第一种解码器部分:第二种解码器部分:第三种解码器部分:...原创 2021-03-18 10:06:06 · 445 阅读 · 0 评论 -
GRU网络原理
GRU概述GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。在LSTM中引入了三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而在GRU模型中只有两个门:分别是更新门和重置门。具体结构如下图所示: 图中的zt和rt分别表示更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重原创 2021-03-17 17:11:46 · 590 阅读 · 0 评论 -
双向LSTM与单向LSTM效果对比
与前面讲述的双向rnn模型类似,都是由两次的模型结果相加获得即:但是在自然语言处理中,有专门的一篇文章讲LStm与双向lstm的效果区别将会在稍后进行更新~~~~~~~~~~~~~~~~~原创 2021-03-17 17:05:29 · 2095 阅读 · 0 评论 -
LSTM原理
转载:https://www.cnblogs.com/huangyc/p/10366873.htmllstm整体结构转载 2021-03-17 16:49:04 · 59 阅读 · 0 评论