NLP
文章平均质量分 59
自然语言处理
a flying bird
永远飞翔的鸟
展开
-
bert-base调试心得
bert-base调试心得原创 2022-07-28 06:39:25 · 364 阅读 · 0 评论 -
TinyBert的原理讲解
TinyBert的原理讲解-布布扣-bubuko.com TinyBERT 是华为不久前提出的一种蒸馏 BERT 的方法,模型大小不到 BERT 的 1/7,但速度能提高 9 倍。本文梳理了 TinyBERT 的模型结构,探索了其在不同业务上的表现,证明了 TinyBERT 对复杂的语义匹配任务来说是一种行之有效的压缩手段。 一、简介 在 NLP 领域,B ...http://www.bubuko.com/infodetail-3641533.html...转载 2022-05-14 20:47:02 · 227 阅读 · 0 评论 -
Bi-LSTM + Attention模型
虽然看了一些很好的blog了解了LSTM的内部机制,但对框架中的lstm输入输出和各个参数还是没有一个清晰的认识,今天打算彻底把理论和实现联系起来,再分析一下pytorch中的LSTM实现。先说理论部分。一个非常有名的blog把原理讲得很清楚,推荐参考。总之就是这些公式:简单来说就是,LSTM一共有三个门,输入门,遗忘门,输出门,分别为三个门的程度参数,是对输入的常规RNN操作。公式里可以看到LSTM的输出有两个,细胞状态和隐状态,是经输入、遗忘门的产物,也就是当前c...转载 2021-06-06 12:36:06 · 3548 阅读 · 1 评论 -
文本相似度和文本匹配模型归纳总结(附keras代码)
1.文本相似度,文本匹配模型归纳总结DSSM详解ESIM详解ABCNN详解BiMPM详解DIIN详解DRCN详解 https://blog.csdn.net/u012526436/article/details/901794662. 短文本相似度计算方法https://blog.csdn.net/baidu_26550817/article/details...原创 2019-11-15 19:11:01 · 5281 阅读 · 2 评论 -
文本相似度和距离度量
目录文本的表示距离度量要计算文本的相似度,要解决两个问题:首先,需要选择一个文本的表示方式。其次,需要选择一个衡量文本的相似度的距离度量。文本的表示自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些文本符号数学化。词向量是用一个向量来表示某个词的方法。下面介绍几种常见的词向量。 SOW 词集模型 忽略文本词序、语法和句法,仅仅记录某个词是否在文本...转载 2019-11-14 13:15:04 · 692 阅读 · 0 评论 -
蚂蚁金融NLP竞赛——文本语义相似度赛题总结
蚂蚁金融NLP竞赛——文本语义相似度赛题总结https://blog.csdn.net/u014732537/article/details/81038260原创 2019-11-12 11:53:15 · 1019 阅读 · 0 评论 -
Word2vec模型原理与keras、tensorflow实现word2vec
一、Word2vec模型介绍与举例1.1 Skip-Gram详解1.2 词向量的优势二、word2vec之keras实现2.1 keras实现skip-gram模型2.2 keras实现CBOW模型三、word2vec之tensorflow实现3.1 tensorflow实现skip-gram模型3.2tensorflow实现CBOW模型四、相关参考4.1word2vec 中的数学原理详解......原创 2019-10-24 08:38:02 · 2502 阅读 · 4 评论 -
智能客服问题相似度算法设计——第三届魔镜杯大赛第12名解决方案
目录:一、比赛介绍二、数据介绍三、解决方案(一)问题分析(二)数据探索(三)模型(四)调参(五)特征工程(六)模型集成(七)后处理四、比赛总结(一)比赛成绩(二)代码分享(三)经验总结(四)心得体会(五)展望未来五、参考文献一、比赛介绍第三届“魔镜杯”由拍拍贷智慧金融研究院主办,在2018年6月10日至7月24日举行,总奖...转载 2019-10-22 19:26:37 · 835 阅读 · 0 评论 -
自然语言处理之DSSM算法-计算文本相似度
转载请注明出处:http://blog.csdn.net/u013074302/article/details/76422551导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义...转载 2019-10-11 16:22:19 · 1313 阅读 · 0 评论 -
词干提取(stemming)和词形还原(lemmatization)
一、词形还原和词干提取的对比词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。目标一致。词干提取和词形还原的目标均为将词的屈折形态或派生形态简化或归并为词干(s...原创 2019-06-22 17:20:24 · 3345 阅读 · 0 评论 -
word2vec and glove优缺点
传统方法 假设我们有一个足够大的语料库(其中包含各种各样的句子,比如维基百科词库就是很好的语料来源) 那么最笨(但很管用)的办法莫过于将语料库里的所有句子扫描一遍,挨个数出每个单词周围出现其它单词的次数,做成下面这样的表格就可以了。 假设矩阵是5W*5W维,矩阵运算量巨大。假设矩阵的每个数字都用标准32位Int表示,需要10,000,000,000个byte,也就是10G...原创 2018-11-11 14:41:27 · 2286 阅读 · 0 评论 -
自然语言处理之文本向量化Hash Trick
在scikit-learn的HashingVectorizer类中,实现了基于signed hash trick的算法,这里我们就用HashingVectorizer来实践一下Hash Trick,为了简单,我们使用上面的19维词汇表,并哈希降维到6维。当然在实际应用中,19维的数据根本不需要Hash Trick,这里只是做一个演示,代码如下:from sklearn.feature_e...原创 2018-09-07 20:16:20 · 2055 阅读 · 0 评论 -
Elasticsearch全文搜索与TF/IDF
转载:https://my.oschina.net/stanleysun/blog/1594220一、TF/IDF1. TFTF:Term Frequency,即词频。它表示一个词在内容(如某文章)中出现的次数。为了消除文档本身大小的影响,通常,它的定义是:TF = 某个词在文档中出现的次数 / 文档的总词数也有其他表示方法,在Elasticsearch (lucene)中...转载 2018-07-19 21:54:48 · 1109 阅读 · 0 评论 -
gensim之doc2vec的使用场景和句子向量提取的比较
尽管word2vec提供了高质量的词汇向量,仍然没有有效的方法将它们结合成一个高质量的文档向量。对于一个句子、文档或者说一个段落,怎么把这些数据投影到向量空间中,并具有丰富的语义表达呢?过去人们常常使用以下几种方法:bag of words LDA average word vectors tfidf-weighting word vectors就bag of words而言,有如下缺...原创 2018-06-20 16:57:50 · 1497 阅读 · 0 评论 -
自然语言处理之智能问答系统
目录一、问答系统简介二、搭建基于检索的问答系统三、其他相似度计算相关参考:一、问答系统简介问答系统通常分为任务型机器人、闲聊机器人和解决型机器人(客服机器人),三者的设计分别针对不同的应用场景。A):任务型机器人主要用于完成用户的某些特定任务,比如:买机票、话费充值或者天气咨询。B):闲聊机器人主要用于深入的和用户进行无目的交流;C):解决型机器人(客服机器人)用于解决用户...原创 2018-05-29 08:49:49 · 10059 阅读 · 8 评论 -
自然语言处理之文本分类实战
相关参考:https://blog.csdn.net/a_step_further/article/details/81259506本项目聚焦于通过机器学习的方法来进行文本自动分类,采用的是有监督的学习,根据已经标注好类别的文本语料进行特征提取、建模、训练,进而对未知样本进行预测。可用于此场景的分类模型有很多,例如贝叶斯、决策树、SVM、深度学习等。本项目中将会重点尝试几个有代表性的模型,并对...原创 2018-05-05 16:48:41 · 2984 阅读 · 0 评论 -
自然语言处理之词移距离Word Mover's Distance
目录一、从EMD到WMD二、词移距离(WMD)举例说明带监督的词移距离(Supervised Word Mover’s Distance)三、word2vec实现词移距离四、词移距离来衡量唐诗诗句的相关性一、从EMD到WMDEMD算法简介,该部分引用自[1]。Earth Mover’s Distance (EMD),和欧氏距离一样,他们都是一种距离度量的定...原创 2018-03-16 07:49:37 · 3602 阅读 · 0 评论 -
自然语言处理之Doc2Vec的原理和使用
摘要:本文主要描述了一种文章向量(doc2vec)表示及其训练的相关内容,并列出相关例子。两位大牛Quoc Le 和 Tomas Mikolov(搞出Word2vec的家伙)在2014年的《Distributed Representations of Sentences and Documents》所提出文章向量(Documents vector),或者称句向量(Sentences vector)...原创 2018-03-13 21:35:53 · 2733 阅读 · 0 评论 -
自然语言处理之Word2vec 使用教程
本文主要基于Radim Rehurek的Word2vec Tutorial.**准备输入**Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表代码块例如:>>> # import modules & set up logging>>> import gensim, logging>&...原创 2018-03-08 19:35:48 · 2406 阅读 · 0 评论 -
自然语言处理之文本向量化(词袋模型、TF-IDF)
目录1.词袋模型(Bag of words,简称 BoW )2.词频向量化3.TF-IDF处理3.1TF3.2IDF4 CountVectorizer与TfidfVectorizer的异同:5.sklearn中TfidfTransformer和TfidfVectorizer对tf-idf的计算方式6.实战文本数据预处理的第一步通常是进行分词,分词后会进行...原创 2018-03-07 19:00:34 · 8716 阅读 · 1 评论 -
自然语言处理之中文文本分析(jieba分词、词袋doc2bow、TFIDF文本挖掘)
中文分词常用的分词工具有jieba等,本文以jieba分词为例,讲解中文文本分析。一、jieba分词来源github:https://github.com/fxsjy/jieba1、主要模式支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对...原创 2018-03-05 20:32:37 · 10246 阅读 · 6 评论 -
自然语言处理之gensim入门和流式实现
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。gensim中基本概念语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要...原创 2018-03-03 22:20:39 · 3168 阅读 · 0 评论