nlp_sinat_34080511的博客-CSDN博客

nlp

关注

关注数：文章数：13 文章阅读量：13693 文章收藏量：7

作者: sinat_34080511

这个作者很懒，什么都没留下…

展开

cosine similarity contrastive loss

TwinBERT:logistic regression layer is applied to the cosine similarity score and convert it to [0, 1].TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for Efficient Retrieval https://arxiv.org/pdf/2002.06275.pdfLearning Text Similarity wi.

原创 2021-12-15 18:54:02 · 2079 阅读 · 0 评论
bert tokenizer

bert包括三个tokenizer：FullTokenizer，BasicTokenizer，WordpieceTokenizer，其中FullTokenizer就是调用后面两个bert tokenizer is not actually suitable for Chinese (and we don't include code to learn WordPieces), but the Google SentencePiece toolkit does have good support for

原创 2021-11-27 13:45:36 · 1249 阅读 · 0 评论
利用腾讯词向量计算相似度

利用腾讯词向量计算相似度欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用...

原创 2019-10-17 10:08:06 · 1776 阅读 · 0 评论
fasttext使用

步骤数据格式：__label__美容最新款美容黑科技训练：./fasttext supervised -input training_set.txt -output model -lr 1.0 -epoch 25 -wordNgrams 3测试：./fasttext test model.bin data/test_set.txt./fasttext predic...

原创 2019-02-17 17:38:46 · 114 阅读 · 0 评论
jieba

python -m jieba -a -D data/dict.txt $INPUT_FILE_NAME | sed 's/ \/ / /g'统计词频

原创 2018-08-21 09:49:57 · 997 阅读 · 0 评论
阅读理解

转载 2018-07-27 21:03:06 · 293 阅读 · 0 评论
双数组trie树

搜索树包括B_树、B+树、Trie树等以及它们的各种变形。用Trie树搜索一个关键码的时间与关键码本身及其长度有关，最快是O(1)，即在第一层即可判断是否搜索到，最坏的情况是O(n)，n为Trie树的层数。Trie树的缺点是占内存，因为Trie树的大多数结点分支很少。为了减少空间浪费，可以用两个数组来表示Trie树，也就是双数组Trie树。一、构建：首先对词表中所有出现的10个汉字...

原创 2018-03-27 18:21:21 · 1813 阅读 · 0 评论
知识图谱

知识存储带JSON扩展的关系数据库（首选）:关系数据库 + JSON是最好的（小规模）知识图谱存储选择。可用工具多、稳定性好、速度快、可join、容易演化。优先推荐使用PostgreSQL 9.3以后版本，直接支持JSON https://www.postgresql.org/docs/9.4/static/datatype-json.html。用Psycopg包操作PostgreSQL h...

原创 2018-04-08 17:43:26 · 395 阅读 · 0 评论
表示学习

参考-基于翻译模型(Trans系列)的知识表示学习

原创 2017-05-19 18:50:10 · 708 阅读 · 0 评论
RNN Sequence Labeling

字符和单词的表示，将两者连接；BiLSTM后加HMM或CRF，求最优的标注序列，只用argmax没考虑依存性。

原创 2017-06-26 22:08:52 · 260 阅读 · 0 评论
From Word Embeddings To Document Distances

论文提出了一个新的计算文本文档距离的方法：Word Mover‘s Distance(WMD)。本文的工作也是基于词向量，从句子的局部共现中学习语义上有意义的词的表示。WMD距离将两个文本文档的不同描述为一篇文档中嵌入的词“travel”到达另一个文档中嵌入的词所需的最小距离量。这个距离矩阵可以看作Earth Mover’s Distance（图像中一个计算距离的算法）的特例，并且这个矩阵没有超参

原创 2017-04-08 10:04:56 · 1688 阅读 · 0 评论
lda

lda

转载 2017-06-24 14:08:22 · 333 阅读 · 0 评论
问句相似度

短文本相似度计算：1. 基于词语方法词语或关键词重叠个数，词语语义矩阵，向量空间模型+余弦距离，主题模型，word2vec2.基于句法特征的方法问句的意思不仅仅有其词语组成，还与词语间的结构有关。基于句法的方法在词语语义方法的基础上，引入了句法特征，从句法特征角度考虑对应句法成分间的词语相似度，进而衡量句子间的相似度。3 基于深度学习的方法

原创 2017-06-05 13:52:01 · 1989 阅读 · 0 评论

nlp

作者: sinat_34080511

cosine similarity contrastive loss

bert tokenizer

利用腾讯词向量计算相似度

fasttext使用

jieba

阅读理解

双数组trie树

知识图谱

表示学习

RNN Sequence Labeling

From Word Embeddings To Document Distances

lda

问句相似度