预训练模型
Ai君臣
通俗说技术AI,一针见血。AI改变世界!立志做一款让人偷懒依赖的个人定制的管家。可信可赖可知心。有志之士互勉!wx公号一休哥
展开
-
bert后的比较有创新的xlnet和eletra模型通俗
Xlent 乱序排列模型,第一次听到这个名字的时候疑惑,乱序那不是句子都乱了吗,其实这正是利用了transform的跟token的位置无关性,但是句子中的token位置不同意义。所以每个token都带着位置embedding输入的。 1.双流注意力,content和Query,2个流共享1套自注意力机制的参数,因此不会造成参数的增加。 2.解释两个图,attention Mask很多人看不懂。每一行都是token 1,2,3,4。 图示的序列是3-2-4-1, content stream 就是t原创 2021-01-05 23:30:54 · 466 阅读 · 2 评论 -
语义相似度和字面相似度的关系BERT-flow
主要内容是BERT-flow,基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间 论文题目:On the Sentence Embeddings from Pre-trained Language Models 下载地址:https://arxiv.org/pdf/2011.05864.pdf 论文代码:https://github.com/bohanli/BERT-flow BERT表示句向量,作者统计分析 BERT的词向量在空间中不是均匀分布,而是呈锥形。作者发现高频词都靠近原.原创 2020-12-19 14:12:33 · 1070 阅读 · 2 评论