NLP
文章平均质量分 92
IGV丶明非
这个作者很懒,什么都没留下…
展开
-
从GPT到chatGPT(三):GPT3(二)
因为上一篇文章阅读量挺高,给了我继续更新对该论文进行解读的莫大动力。这篇文章主要讲原论文的第三章(Results),讲的是GPT3在9个不同类型的数据集上表现如何。其实对于包括我在内的大多数读者或工程师来说,模型的实际效果才是最重要的,所以也很有必要好好地来看看这一章的内容。另外,下文中我尽可能以翻译为主,个人理解为辅的方式来进行,所以会以作者的第一人称来叙述。原创 2023-02-16 18:21:08 · 4766 阅读 · 0 评论 -
从GPT到chatGPT(二):GPT2
在GPT1出来后不久,和GPT很相似的BERT也横空出世,并且几乎在全方位上吊打了GPT1,OpenAI扬长避短,提出了(GPT2)。它强调的通过无监督学习也能达到和finetune一样的效果,并且拥有更强的泛化能能力(个人猜测就是在finetune的情况下打不过BERT,所以主打无监督学习)自然语言处理任务,如问题解答、机器翻译、阅读理解和摘要,通常需要在特定于任务的数据集上进行监督学习。原创 2023-01-13 14:13:42 · 4534 阅读 · 0 评论 -
从GPT到chatGPT(一):GPT1
GPT1,出自于OpenAI的论文,是最早的将transformer以多层堆叠的方式构成语言模型的模型,其出现时间早于BERT,但二者有一个最大的区别在于BERT只用的是transformer的encoder层,而GPT1只用了transformer的decoder层。除此以外二者在目标函数等地方也有各自的方法,感兴趣的可以自行阅读对比,这里不再展开。我们通过单一任务不可知(task-agnostic)模型实现了一个强大的自然语言理解框架,主要包括生成性预训练和区分性微调两部分。原创 2023-01-12 14:09:54 · 6891 阅读 · 0 评论 -
RocketQA(百度):一种对开放域问答的向量化召回优化算法
本文介绍百度在2021年发表的一系列关于文档向量化召回&&排序的文章。原创 2022-06-07 09:28:14 · 4284 阅读 · 0 评论 -
LDA等主题模型实战(一)
文章目录前言正文评估方式LDA模型LDA之gibbs采样算法LDA之EM算法Biterm Topic ModelTopic Modeling with Minimal Domain Knowledge无先验知识有先验知识小结前言前段时间看了LDA主题模型的理论知识,想着还是需要具体实践来感受下。然后想着搜一下看还有没有别的主题模型,看能不能都跑一下demo对比下效果,结果看到了一篇汇总类的知乎:https://www.zhihu.com/question/34801598(回答者:苏格兰折耳喵)其中原创 2022-04-01 19:08:58 · 2311 阅读 · 4 评论 -
LDA主题模型读书笔记(一)
前言这几天在补主题模型LDA,看的我晕头转向的,最后梳理清楚思路后有以下几点感悟:LDA总的来看模型涉及到三方面:1.概率论知识;2.LDA自身的基本建模思想;3.Gibbs采样。为什么看得头晕?是因为我们总是把这三方面知识杂糅在一起了,其实把这几方面分开缕清楚,同时不去钻一些牛角尖的话(Dirichlet分布和Gibbs采样理论推导等),问题就简单多了。很多文章侧重在1和3上,却忽视了2,导致大家看了半天LDA都不知道目标函数是什么,其实这才是首要需要弄明白的。原创 2022-03-25 16:11:05 · 1977 阅读 · 0 评论 -
知识融合之dedupe初体验
前言最近在学习知识图谱的相关知识,看到了知识融合以及其比较流行的python库dedupe,就想着自己跑一下它的example,并进行简单的分析。参考文章:知识图谱入门 (六) 知识融合 [1]知识融合之dedupe [2]什么是主动学习?[3]前者主要是介绍知识融合的大体框架和理论知识。后者主要是介绍了python环境下dedupe的安装和跑一个简单的demo。但[2]对于demo中的核心函数的原理基本都没做介绍,笔者自己进行更深入的了解后,发现源代码确实封装地比较难懂,之后在结合官方原创 2022-02-24 10:32:42 · 2784 阅读 · 2 评论 -
如何构建知识图谱和问答系统
前言问答系统是NLP在业界最为重要的落地场景之一,但由于其全链路比较复杂,学习的时候难以入手。这是一个基础的图谱构建和问答系统的项目,为大家学习问答系统提供一个思路。ps:之前断断续续写了知识图谱和问答系统的构建,干脆整合成一个完整的github项目,并对知识图谱进行系统性介绍。原创 2022-02-22 22:32:44 · 3292 阅读 · 0 评论 -
基于neo4j图谱搭建问答系统
前言承接前文,本文介绍如何根据已有的neo4j图谱来搭建一个简单的问答系统。ps:因为是基于neo4j图谱的,所以这个问题必须是在图谱中有答案才能进行回答。正文问答系统是NLP中最复杂的场景之一,根据查阅资料和个人的理解,一个简单的问答系统至少需要包含以下三个部分:问题分类关键词抽取neo4j查询以下分别对这三部分进行介绍:问题分类当一个问句过来的时候,我们首先要对其进行初步的分类,比如:问题:伊利丹·怒风的称号是什么?解析提问的类别:title问题:伊利丹·怒风的种族是什么?原创 2022-02-22 10:18:02 · 6262 阅读 · 1 评论 -
bert-pytorch版源码详细解读
前言bert作为当下最火的NLP模型(或者说该类型的模型,包括AlBert,XLNet等)。对于志在NLP的同学,有必要对其原理和代码都进行比较深入的了解。废话不多说,进入正题。PS:1.这里的代码有些参数传入是阉割过的,而且代码版本也是比较老版的,但更容易理解,更详细的还是参考:https://huggingface.co/transformers/2.关键的注解都在代码的注释里。主要代码1.主函数入口class BertModel(nn.Module): def __init__(s原创 2021-08-08 18:51:54 · 2076 阅读 · 1 评论 -
较详细地解读Bert原文及简单的keras调用实现
前言bert自问世到现在也快一年了,不过我也是最近一段时间才看了下这篇轰动NLP界的文章,说实话,有些地方并不是太好理解,很多博客在当时也没能解答我的一些困惑,不过带着疑问去看原文是必要的。这篇博客主要还是基于bert的原文对其进行一个介绍,希望在这片文章中尽量把我看别人博客时感到困惑的地方说的更加清楚。最后希望读者自己还是去看一下原文,毕竟笔者能力很有限,有些地方理解不对也是有可能的,本文只能...原创 2019-08-04 18:42:49 · 3157 阅读 · 1 评论 -
用BLSTM+CRF进行序列标注
前言: 2015年,百度几位研究员发表了一篇名为Bidirectional LSTM-CRF Models for Sequence Tagging的论文,意思是用神经网络中的RNN所衍生出的LSTM与CRF相结合来进行序列标注。由于本最近在处理序列标注的问题,所以拜读了一下这篇文章,思想比较朴素简单,但却非常有效且具有简约的美感,让我由衷地钦佩,所以在此对这篇文章中比较关键的部分进行一个翻译记...原创 2018-07-06 09:45:54 · 5905 阅读 · 2 评论 -
用tensorflow实现word2vec(skip-gram+NEC模型)
前言:本文的代码主要参考github上的一篇开源的代码“Basic word2vec example”,但是几乎只提取了其中网络搭建的必要部分,并且为了方便自己作为初学者的理解进行了一些语言上简化(并没有简化模型),同时加上了一些自己的批注。 主要目的是学习熟悉tensorflow的使用,同时加深对word2vec的理解,因此在此进行记录。正文:第一步:下载及读取数据读取的数...原创 2018-06-22 10:56:58 · 1420 阅读 · 0 评论 -
simhash的py实现
前言: 这篇博客主要从python(3)代码的角度来讲本人是如何实现simhash的,不足之处还望大家不吝赐教。simhash的算法原理大家可以参考简单易懂讲解simhash算法。值得一提的是文中提到simhash对长文本更加有效,个人从算法原理角度思考过后感觉也是如此。初始化首先我们要明确我们需要的是什么,给定了一个大语料,我们希望得到的是每个词的编码以及对应的权重,那么我们可以将目标...原创 2018-05-26 11:37:09 · 4820 阅读 · 2 评论 -
相似query(句子)聚类
相似query(句子)聚类首先说明一下,这些句子均来自一个特定的领域(如教育,娱乐明星,游戏),且无标签。 先讲一下大体流程。首先对句子分词,并根据word2vec的思想,对句子进行了向量化,接着对高纬度向量表征的句子进行了PCA降维,然后用kmeans对句子进行了聚类,再利用相似度阈值的思想过滤掉了一些“噪音”句子,最后根据聚起来的相同类别的句子的高频共现词得到该类的几个标签。 最终我们...原创 2018-05-20 10:50:20 · 5822 阅读 · 3 评论 -
fasttext简介
fasttext的基础理论前言简介 fasttext是NLP里,一个非常高效的,基于词向量化的,用于文本分类的模型。虽然其原理比较简单,但是其中涉及到了不少的用于提速和准确率的小技巧。这篇文章主要从理论的层面(一直想有时间去扒源码来看看来着)介绍这些小技巧,而对于和word2vec部分中类似的地方会简单提到,但是不会展开说明(这个作者先提出的word2vec,后来提出的fa...原创 2018-04-29 10:50:38 · 2491 阅读 · 1 评论 -
关键词提取(tf-idf与textRank)
关键词提取(tf-idf与textRank)一.tf-idftf-idf提取关键词是一种简单有效的提取关键词的方法.其思想主要在于预先统计在语料中出现的所有词的词频,计算出idf值,然后再针对要提取关键词的文章或句子的每个词计算出tf值,乘起来便是tf-idf值.值越大表示作为关键词的优先级越高.假设现在语料一共有M篇文章,其中词A在其中m篇中出现过了,那么A的idf值为log(M/m...原创 2018-05-09 16:50:49 · 12968 阅读 · 0 评论