NLP
文章平均质量分 93
Litra LIN
这个作者很懒,什么都没留下…
展开
-
文本表达:解决BERT中的各向异性方法总结
文章目录文本表达:从BERT-flow到BERT-whitening、SimCSE1、BERT-flowBERT表示存在的问题BERT-flow2、BERT-whitening向量的内积标准正交基方差与协方差whitening3、SimCSE文本表达:从BERT-flow到BERT-whitening、SimCSESentence Embeddings:即能表征句子语义的特征向量,获取这种特征向量的方法有无监督和有监督两种,在无监督学习中,我们首先会考虑利用预训练好的大型预训练模型获取[CLS]或对句子原创 2022-01-31 16:28:10 · 4863 阅读 · 1 评论 -
ESIM模型详解与Keras代码实现
文章目录ESIM模型1、input encoding2、Local Inference Modelling3、Enhancement of local inference information4、others5、Keras实现ESIM模型ESIM主要分为三部分:input encoding,local inference modeling 和 inference composition。首先什么是文本匹配,简单来说就是分析两个句子是否具有某种关系,比如有一个问题,现在给出一个答案,我们就需要分析这原创 2022-01-29 13:45:50 · 2579 阅读 · 0 评论 -
InferSent模型详解与Keras代码实现
文章目录概述原理概述传统的语句嵌入方法(sentence2vec)往往采用的是无监督学习方法,然而无监督的学习方法在较长语句向量的获得方面表现得不够优秀。在这篇文章中,我将介绍一种有监督得训练方法,原论文实验证明:这种方法要优胜于skip-thought方法(一种encoder-decoder模型)。原理1、训练集介绍本文采用的是Stanford Natural Language Inference Datasets,简称SNLI。SNLI包含570K个人类产生的句子对,每个句子对都已经做好了标签原创 2022-01-28 11:35:36 · 1794 阅读 · 0 评论 -
百度千言-中文文本相似度实战
百度千言-中文文本相似度实战任务1:报名比赛,下载比赛数据集并完成读取步骤1 :登录&报名比赛:https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition步骤2 :下载比赛数据集步骤3 :使用Pandas完成数据读取。任务2:对句子对提取TFIDF以及统计特征,训练和预测参考代码:kaggle参考案例步骤1 :对句子对(句子A和句子B统计)如下特征:句子A包含的字符个数、句子B包含原创 2022-01-24 12:53:31 · 2812 阅读 · 1 评论 -
Transformer结构详解
Transformer结构详解1.ransformer整体结构2.Transformer的输入2.1单词Embedding2.2 位置Embedding3.self-attention(自注意机制)3.1 self-attention结构3.2 Q,K,V的计算3.3self-atttention的输出3.4 Multi-Head Attention4.Encoder的结构4.1 Add & Norm4.2 Feed Forward4.3 组成Encoder5.Decoder结构5.1 第一个Mul原创 2021-12-26 21:11:33 · 15240 阅读 · 6 评论 -
TF-IDF算法详解与实践
TF-IDF算法文章目录TF-IDF算法1、TF-IDF算法介绍2、TF-IDF的应用3、怎么使用TF-IDF3.1 sklearn实现TF-IDF算法3.2 参数介绍4、TF-IDF的不足1、TF-IDF算法介绍TF-IDF(term frequency-invers document frequency,词频-逆向文件频率)是一种常用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用于评估一字词对于一个文件集原创 2021-12-01 13:31:06 · 2840 阅读 · 0 评论
分享