- 博客(5)
- 收藏
- 关注
原创 PromptBERT: Improving BERT Sentence Embeddings with Prompts
这篇文章用Prompt减少偏差token偏差,传统的BERT输出的向量,在句子语义相似度方面的表现是不好的。作者发现原因主要由两点组成statictokenembeddingbiases和ineffectivelayers,而不是highcosinesimilarityofthesentenceembedding。...
2022-07-28 16:15:32
764
2
原创 基于bert的情感分类
我们的目标是创建一个模型,该模型采用一个句子(就像我们数据集中的句子一样)并产生1(表示句子带有积极情绪)或0(表示句子带有消极情绪)。下一个模型是scikitlearn的基本逻辑回归模型,它将接受DistilBERT的处理结果,并将句子分类为肯定或否定(分别为1或0)。以前在处理不同的NLP任务通常需要不同语言模型,BERT的作用是可以嵌套在各种NLP任务中,以此为基础finetune多个下游任务。同时也有缺点,就是同意报错连接错误,出现此问题的原因是运行程序的服务器没有网络,却使用了未下载的。...
2022-07-15 14:41:27
3987
1
原创 SGM: Sequence Generation Model for Multi-Label Classification(用于多标签分类的序列生成模型)
2018年最好的nlp文章,先说结论,有些参考的价值可以分享一下:总结:SSG模型细节和实现。模型图: Encoder令 (X1,X2,X3,Xm)为 m 个单词的序列。我们首先通过一个嵌入矩阵 (embedding matrix),把 嵌入成一个稠密的嵌入向量 , |V|是词汇表的大小, k 是嵌入向量的维度。我们使用一个bidirectional LSTM 从两个方向上来读取文本序列 x,并且计算每个单词的隐藏状态:我们通过连接两个方向上的隐藏状态来得到第 i个单词的最终隐藏状态,这使得
2022-07-08 22:24:29
898
原创 seq2seq (中英对照翻译)Attention
基于PyTorch实现seq2seq模型来实现中文向英文的翻译。Seq2Seq模型seq2seq模型主要由Encoder和Decoder这两部分组成,因为是序列到序列网络,之间有两个递归神经网络一起工作,将一个序列转换成另一个序列。编码器网络将输入序列压缩成向量,解码器将其展开为新序列。我们的数据集是来自http://www.manythings.org/anki/找到这个将其下载下来。1.文本预处理:SOS_token = 0EOS_token = 1# cl.
2022-04-26 21:57:18
1705
4
原创 Spark源码-Core RDD部分代码解析(一)
1.RDD抽象类概述构造方法与成员属性abstract class RDD[T: ClassTag](@transient private var _sc: SparkContext,@transient private var deps: Seq[Dependency[_]]) extends Serializable with Logging {SparkContext 是通往 Spark 集群的唯一入口,可以用来在 Spark 集群中创建 RDDs 、累...
2022-04-13 10:51:55
365
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人