![](https://img-blog.csdnimg.cn/4623da01578e42dc862fad8d6feaad3a.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
文本相似度分析
文章平均质量分 62
个人研究方向
yzzheng_60125
莫问收获,但问耕耘!
未来的7年,培养自己如下能力:
高效的学习能力。这意味着——基础知识扎实、触类旁通、读英文文档不费劲、有寻找前沿知识的能力、能够看到问题和技术的本质、善于思辩、能独立思考。
解决问题的能力。这意味着——你要高效的学习能力、见过很多的场景、犯过或是处理很多错误、能够防火而不是救火。
展开
-
【lhy人类自然语言处理】第25集 multilingual Bert
再续李宏毅老师的深度学习与人类自然语言处理课程p25 Multi-lingual Bert首先指明 世界上存在6-7k中语言,不需要每种语言训练一个bert模型引出MBert模型,并且给出mbert模型的能力,train在某种语言上,然后在另一种语言做eval,竟然得到的效果也不错。此外,竟然通过翻译的手段效果还要好。给出google的benchmark。https://sites.reasearch.google/xtremecross-lingual transfer evaluation原创 2021-11-04 12:08:18 · 632 阅读 · 0 评论 -
【短文本匹配】听腾讯作者讲18年的MIX作品
昨天,在B站听大佬讲短文本相似度匹配论文,是一个腾讯大佬讲的MIX论文方法最近,关注文本匹配工作也有一段时间了,想着到时候综合过往前任研究成果一起,写一个大致综述,留给下一届补充,我要做的任务是跨语言文本匹配,其落地应用可以实现跨语言剽窃检测。实验室之前作品是基于特征来做的,我目前想做的方法,直接通过训练跨语言词向量来做文本匹配,所以应该摸索两个方向,第一是跨语言;第二是文本匹配。目前看到的文章,有把wordnet与bert结合,用wordnet的近义词相关关系,做一个近义词注意力机制,揉进be原创 2021-10-25 00:02:09 · 175 阅读 · 0 评论 -
【BERT系列】SBERT的分析
读SBERT论文的一些报告其次,在计算上,有与BERT是做NSP任务上是两个句子投入到BERT里面算,那么总共需要计算次数就是n*(n-1)/2次,1w的句子需要49995000次运算,作者用V100GPU上花了65h。原文是这样描述:而作者在文章中夹带用SBERT计算1w个句子向量只需要5s,然后就散cosine相似度约0.01秒,原文描述如下:从bert和Sbert结构上看原生bert的计算句子向量结构图:而SBERT分开两个网络,彼此独立计算句子向量,也就是它的复杂度是O((lenA原创 2021-10-04 16:35:13 · 2686 阅读 · 2 评论 -
【跨语言剽窃检测】文本相似度分析之一
对比文件1: 2010年的跨语言剽窃检测新方法作者RaFael Corezola Pereirainstituion : UFRGS摘要:作者提出一个跨语言剽窃检测新方法,分为5个主要阶段: languange normalization、retrieval of candidate documents、classfier training、plagiarism analysis 、post processing在摘要中作者还说明手动构建一个数据集,并且比较单语上的和跨语言的(跨语言上达到单语的b原创 2021-09-28 10:01:16 · 1213 阅读 · 0 评论