NLP
小镇大爱
这个作者很懒,什么都没留下…
展开
-
图解BERT模型
1. 模型的输入/输出BERT模型的全称是:BidirectionalEncoder Representations from Transformer。从名字中可以看出,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。煮个栗子,BERT模型训练文本语...转载 2020-02-04 22:25:59 · 8807 阅读 · 5 评论 -
《Reading Wikipedia to Answer Open-Domain Questions》阅读笔记
一、介绍1.简介:本借助大规模开源的外部知识库是突破机器阅读和问答能力的关键。作者基于 500 万+的 Wikipedia 文档,在SQuAD,WebQuestions 等几个问答数据集上,做开放式的问答系统。作者提出的 DrQA 模型是由 Document Retriever(文档搜寻) 和 Document Reader(文档阅读) 两部分组成。Document Retriever...原创 2019-11-25 00:29:19 · 486 阅读 · 1 评论 -
英文分词算法(Porter stemmer)
Porter stemmer 并不是要把单词变为规范的那种原来的样子,它只是把很多基于这个单词的变种变为某一种形式!换句话说,它不能保证还原到单词的原本,也就是"created"不一定能还原到"create",但却可以使"create" 和 "created" ,都得到"creat" !比如我输入"create" 和 "created" ,它解析得到 "creat"那么,只需要在查询...原创 2019-11-22 10:10:44 · 529 阅读 · 0 评论 -
倒排索引原理和实现
关于倒排索引搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档。怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词——文档矩阵模型,通过这个模型我们可以很方便知道某篇文档包含哪些关键词,某个关键词被哪些文档所包含。单词-文档矩阵的具体数据结构可以是倒排索引、签名文件、后缀树等。倒排索引源于实际应用中需要根据属性的值来查找记录,lucene是基于倒排索引实现...转载 2019-11-21 12:38:34 · 247 阅读 · 0 评论 -
TF-IDF原理
什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总...原创 2019-11-20 23:46:17 · 214 阅读 · 0 评论 -
BERT详解
1.BERT模型BERT(BidirectionalEncoderRepresentations fromTransformers)近期提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点:使用了Transformer作为算法的主要框架,Trabsformer能更彻底的捕捉语句中的...原创 2019-11-19 19:44:15 · 1077 阅读 · 0 评论