![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
模型
dream_uping
今天也是努力的一天
展开
-
文本多分类工作
测试集(test set):开发集中选出的最优的模型在测试集上进行评估。不会据此改变学习算法或参数。开发集(development set):调整参数、选择特征,以及对学习算法作出其它决定。训练集、开发集、测试集的划分比例为18W:1W:1W。训练集(training set):训练算法。原创 2022-09-20 09:19:30 · 418 阅读 · 0 评论 -
读transformer的笔记
单词向量矩阵用 Xn×d 表示, n 是句子中单词个数,d 是表示向量的维度 (论文中 d=512)。每一个 Encoder block 输出的矩阵维度与输入完全一致。在实际中,Self-Attention 接收的是输入(单词的表示向量x组成的矩阵X) 或者上一个 Encoder block 的输出。),之后得到句子所有单词的编码信息矩阵。上图是 Self-Attention 的结构,在计算的时候需要用到矩阵。1.嵌入向量方面,就是词嵌入和位置嵌入的加和。3.如下图:【目前不太理解!原创 2022-09-19 10:40:40 · 641 阅读 · 0 评论 -
Teacher Forcing
但是,在测试集中表现可能较差。因为,在测试集中没有ground truth的存在!就是比较依赖于ground truth数据。原创 2022-09-19 10:13:29 · 194 阅读 · 0 评论 -
浅浅懂了一些transformer中的self-attation
正如很多人说,其中灵魂就是下面这个公式:简单说,就是。输入的词汇会变成嵌入。就是高纬数据!这称为矩阵X!之后,经过三个可训练的参数矩阵生成Q、K、V这三个都是维度相同的!第一波,Q矩阵乘以K的转置矩阵。这个核心思想,就是两个向量点乘就是计算二者的相似性程度大小。自注意力机制,也就是包含着本身的一些字符串。【换句话说,如果K、V矩阵不是由上面的X矩阵生成的话,那么就叫做注意力机制啦。因为这样的点乘也是计算相似性程度的!】原创 2022-09-18 22:50:52 · 503 阅读 · 0 评论 -
聚类和分类的最基本区别。
聚类和分类的最基本区别。分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。而聚类的理解更简单,就是你压根不知道数据会分为几类,通过聚类分析将数据或者说用户聚合成几个群体,那就是聚类了。聚类不需要对数据进行训练和学习。分类属于监督学习,聚类属于无监督学习。常见的分类比如决策树分类算法、贝叶斯分类算法等。聚类的算法最基本的有系统聚类,K-means均值聚类,这些都很常见,网上资料一大推,不再原创 2022-06-22 21:15:13 · 550 阅读 · 1 评论 -
评价标准:ROC和AUC
作者:华为云开发者社区链接:https://www.zhihu.com/question/23700474/answer/1878757572来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC 曲线。平面的横坐标是false positive rate(FPR),纵坐标是true positive rate(TPR)。对某个分类器.原创 2022-04-16 16:19:54 · 841 阅读 · 0 评论 -
NFRE-解析下载数据包
其中包是一一对应的。原创 2022-03-16 15:25:54 · 482 阅读 · 0 评论 -
自然语言处理中N-Gram模型介绍
转载一下,这文章写的真好!容易看懂,。也是解决了,好奇为什么不用3。因为,如果使用3的话。那么数量就会大的吓人!原创 2022-03-08 15:44:09 · 166 阅读 · 0 评论