自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 中文生成模型T5-Pegasus详解与实践

本文介绍了T5模型的多国语言版mT5及其变种T5-Pegasus,以及T5-Pegasus如何做到更好地适用于中文生成,并介绍它在中文摘要任务中的实践。

2022-04-17 22:37:00 10157 14

原创 Transformer回顾与细节

本文所讲述的Transformer采用Seq2seq式的编码器-解码器结构,不过它摒弃了经典的 RNN,采用 self-Attention。由于并行计算、长时序建模、模型容量大等优势,它受到BERT、GPT、T5等众多预训练模型的青睐。Transformer的模型结构简单,但细节较多,本文会用尽可能深入而明了的方式进行讲述。

2022-04-10 22:49:46 940

原创 生成式摘要的四篇经典论文

本文重温经典,从生成式摘要的开篇之作起,讲解四篇经典论文和它们的相关文献。这四篇论文奠定了生成式摘要技术的发展基础,探讨了摘要的本质问题,为后来的研究提供启示。所谓“了解走过的路,才能更好地往前看”,正是本文的初衷,学习经典论文,思考创新点。

2022-03-03 11:40:28 3047

原创 Pytorch模型存储心得小记

本文持续更新我在使用Transformers时的心得小记。

2022-01-04 01:02:09 2727

原创 MT5ForConditionalGeneration生成模型的推理细节,源码阅读

T5是Google提出的Seq2Seq结构的预训练语言模型,一经提出便登上了GLUE、SuperGLUE等各大NLP榜单第一,而它的升级版本mT5因为用了多国语言语料,在中文任务上可以开箱即用。HuggingFace的Transformers包里的MT5ForConditionalGeneration,就是MT5生成模型的实现,我们只需调用它的model.generate()函数,就能用mT5模型进行推理和生成,简单易用。model.generate()函数背后的逻辑和内部的实现细节又是什么样的呢,本文带你

2022-01-04 00:09:45 8017 1

原创 文本表示模型(2):静态词表示Word2Vec、FastText、GloVe

目录文本表示模型静态词嵌入Word2VecFastTextGloVe文本表示模型文本表示模型可分为以下几种:基于one-hot、tf-idf、textrank等的bag-of-words;基于计数的,主题模型,如LSA(SVD)、pLSA、LDA基于预测的,静态词嵌入,如Word2Vec、FastText、Glove基于大规模预训练的,动态词嵌入,如BERT、T5本文讲解第三种“静态词嵌入”。静态词嵌入词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间上的一个稠密向

2021-11-19 00:29:45 1492 1

原创 文本表示模型(1):主题模型LSA、pLSA、LDA

目录文本表示模型主题模型LSApLSALDA文本表示模型文本表示模型可分为以下几种:基于one-hot、tf-idf、textrank等的bag-of-words;基于计数的,主题模型,如LSA(SVD)、pLSA、LDA基于预测的,静态词向量,如Word2Vec、FastText、Glove基于大规模预训练的,动态词表示,如BERT、T5本文讲解第二种“主题模型”。主题模型主题模型的目标是在大量的文档中自动发现隐含的主题信息LSALSA(Latent Semantic Analy

2021-11-18 23:57:33 3185 2

原创 Seq2Seq Attention模型详解

Seq2seq是一种Encoder-Decoder协同训练的端到端网络。传统Seq2seq只取用Encoder的rnn单元的最后一个隐层输出作为Decoder的输入,但由于时序串行的关系,最后一个隐层输出更关注于位于时序末尾的特征,而更弱化了位于时序前端的特征,所以这通常是“有偏”的。如今我们提到Seq2seq则常把它和Attention联系在一起,正是因为Attention采用各个rnn隐层输出的加权和,解决了“有偏”的问题。

2021-11-05 01:11:05 2741 2

原创 文本生成:自动摘要评价指标 Rouge

Rouge的全名是Recall-Oriented Understudy for Gisting Evaluation,单看名字就会发现Rouge是由召回率演变而来的指标,用于衡量模型生成摘要文本的质量。我们常说的Rouge其实是一组评价指标的统称,包含Rouge-N, Rouge-L, Rouge-W, Rouge-S四个指标,它们的计算方式和适用场景有所不同。本文首先介绍了它们各自的适用场景和计算方式,并给出了简洁可用的代码示例,最后写下了一点个人思考。

2021-10-25 00:57:11 6943 4

原创 multiprocessing多进程和subprocess子进程总结

0. 什么是进程、线程简述:进程是操作系统资源分配(内存,显卡,磁盘)的最小单元。线程是执行cpu调度的最小单元(cpu看到的都是线程而不是进程)。关系:一个进程可以有一个或多个线程,线程之间共享进程的资源。线程依存于进程,不能独立执行,没有进程就没有线程。对比:进程创建/切换的开销比线程创建/切换的开销大。执行:并发:CPU在同一时刻只执行单个任务,多个任务快速地交替执行。并发的多个任务互相抢占资源。并行:CPU在同一时刻执行多个任务。并行的多个任务不会互相抢占资源。通信:多线程

2021-10-05 01:50:15 1993

原创 动态知识图: EMNLP2021-Interactive Machine Comprehension with Dynamic Knowledge Graphs

《Interactive Machine Comprehension with Dynamic Knowledge Graphs》,EMNLP2021,具有动态知识图的交互式机器理解论文:https://arxiv.org/pdf/2109.00077.pdf代码:https://github.com/xingdi-eric-yuan/imrc_graph_public一、介绍1.机器阅读理解(MRC) 和 交互式机器阅读理解(iMRC)机器阅读理解(MRC):给定一个知识源(如文档),模型通读该

2021-09-20 14:00:51 445

原创 命名实体识别(NER)综述

1. NER介绍1.1 理论命名实体识别(NER)是自然语言处理领域的核心技术之一,它的目标是从一段非结构化文本中识别出属于特定类别的命名实体,进而支持下游任务。例如,为了接入地图搜索服务API,查询POI信息,我们从“我要去北京市北三环西路”中,识别出市辖区类“北京市”和道路类“北三环西路”这两个实体,并作为参数值传入搜索服务API(这一步骤被称为填槽),搜索完成后可获取对应的查询结果。1.2 常见命名实体在公开NER语料中,命名实体类别以“时间TIME、地名LOC、人名PER、机构ORG”最为常

2021-09-13 01:29:46 8667

原创 win7系统 spark 安装配置及排错

日期:17.5.1-5.4 我原本计划在Linux Ubuntu系统上安装Spark,网上教程和攻略细细读了几篇,准备工作基本就绪,却唯独差了一个u盘。为了赶时间,不因此拖进度的后腿,临时起意转战windows。 对于我来说,在Linux系统上安装和配置Spark是一件麻烦事,没有接触过,学习各种代码命令需要花费比较多的时间。Windows系统操作比较熟悉,排错会更容易一些。 安装

2017-05-04 21:02:45 3575

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除