自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 PromptBERT: Improving BERT Sentence Embeddings with Prompts

这篇文章用Prompt减少偏差token偏差,传统的BERT输出的向量,在句子语义相似度方面的表现是不好的。作者发现原因主要由两点组成statictokenembeddingbiases和ineffectivelayers,而不是highcosinesimilarityofthesentenceembedding。...

2022-07-28 16:15:32 764 2

原创 基于bert的情感分类

我们的目标是创建一个模型,该模型采用一个句子(就像我们数据集中的句子一样)并产生1(表示句子带有积极情绪)或0(表示句子带有消极情绪)。下一个模型是scikitlearn的基本逻辑回归模型,它将接受DistilBERT的处理结果,并将句子分类为肯定或否定(分别为1或0)。以前在处理不同的NLP任务通常需要不同语言模型,BERT的作用是可以嵌套在各种NLP任务中,以此为基础finetune多个下游任务。同时也有缺点,就是同意报错连接错误,出现此问题的原因是运行程序的服务器没有网络,却使用了未下载的。...

2022-07-15 14:41:27 3987 1

原创 SGM: Sequence Generation Model for Multi-Label Classification(用于多标签分类的序列生成模型)

2018年最好的nlp文章,先说结论,有些参考的价值可以分享一下:总结:SSG模型细节和实现。模型图: Encoder令 (X1,X2,X3,Xm)为 m 个单词的序列。我们首先通过一个嵌入矩阵 (embedding matrix),把 嵌入成一个稠密的嵌入向量 , |V|是词汇表的大小, k 是嵌入向量的维度。我们使用一个bidirectional LSTM 从两个方向上来读取文本序列 x,并且计算每个单词的隐藏状态:我们通过连接两个方向上的隐藏状态来得到第 i个单词的最终隐藏状态,这使得

2022-07-08 22:24:29 898

原创 seq2seq (中英对照翻译)Attention

基于PyTorch实现seq2seq模型来实现中文向英文的翻译。Seq2Seq模型seq2seq模型主要由Encoder和Decoder这两部分组成,因为是序列到序列网络,之间有两个递归神经网络一起工作,将一个序列转换成另一个序列。编码器网络将输入序列压缩成向量,解码器将其展开为新序列。我们的数据集是来自http://www.manythings.org/anki/找到这个将其下载下来。1.文本预处理:SOS_token = 0EOS_token = 1# cl.

2022-04-26 21:57:18 1705 4

原创 Spark源码-Core RDD部分代码解析(一)

1.RDD抽象类概述构造方法与成员属性abstract class RDD[T: ClassTag](@transient private var _sc: SparkContext,@transient private var deps: Seq[Dependency[_]]) extends Serializable with Logging {SparkContext 是通往 Spark 集群的唯一入口,可以用来在 Spark 集群中创建 RDDs 、累...

2022-04-13 10:51:55 365

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除