自然语言处理
文章平均质量分 88
谈笑风生...
这个作者很懒,什么都没留下…
展开
-
文本语义表征(Sentence-Bert、Simcse)的应用和实践
文本语义表征(Sentence-Bert、Simcse)的应用和实践原创 2022-06-26 18:52:43 · 4819 阅读 · 4 评论 -
NER的三个标注框架
这篇文章主要来说说自己最近做ner任务时使用过的三个不同的标注框架,分别是序列标注、指针标注和阅读理解的标注形式。下面分别讲述三个标注体系框架。序列标注在ner任务中,序列标注是最为常见的标注体系,也是比较容易理解的标注体系,以Bi-lstm+CRF为例,就是一种序列标注体系,在另一篇博文中详细介绍了Bi-lstm+CRF的原理以及用法,详情参考:知识图谱之命名实体识别,这里就不再赘述了。指针标注废话不多说,直接上图,看图说故事。在指针标注体系中,使用span模块代替了CRF模块,加快了训练速度原创 2021-11-23 15:41:19 · 2759 阅读 · 0 评论 -
Beam Search 优化
在说集束搜索的优化之前,先说说贪心搜索和集束搜索的区别吧。集束搜索和贪心搜索比较简单的来说,贪心算法是先挑出一个最可能的词,在此基础上再挑出第二个最有可能的词,以此类推,使每个词的概率最大化。而集束搜索是站在整个词序列整体的角度上使其概率最大化。典型的结果是,通过贪心搜索得到的翻译结果可能会包含一些日常使用中词频较高的词。贪心搜索最为简单,直接选择每个输出的最大概率,直到出现终结符或最大句子长度。集束搜索可以认为是维特比算法的一个特例,在维特比算法中由于利用动态规划导致当字典较大时效率低,而集束搜索使原创 2021-01-12 16:22:36 · 644 阅读 · 0 评论 -
智能营销文本生成项目知识点总结
最近业余时间弄了一个文本生成的项目,在此将相关知识点总一下总结。项目说明本项目中,我们作为输入的原文称之为 source,待生成的目标文本 称之为 target ,用来作为 target 好坏的参考文本称之为 reference。在本项目的数据源来自于某电商的发现好货栏目,source 主 要由三部分构成:1 是商品的标题,2 是商品的参数,3 是商品宣传图片里 提取出来的宣传文案,reference 则是实际该商品的营销文案;如下是某一条样本以及训练好的模型的预测结果,其中beam是解码出来的文本原创 2021-01-12 14:53:48 · 1041 阅读 · 20 评论 -
Bert和Albert、XLNet的前世今生
样本不均衡问题所谓的不平衡指的是不同类别的样本量差异非常大,或者少数样本代 表了业务的关键数据(少量样本更重要),需要对少量样本的模式有 很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。 样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数 据分布不均衡两种:大数据分布不均衡——整体数据规模较大,某类别样本占比较 小。例如拥有1000万条记录的数据集中,其中占比5万条的...原创 2020-05-01 23:23:07 · 871 阅读 · 0 评论 -
文本主题模型LDA(三)python实现
前两篇博文分别详细讲解了文本主题模型LDA的基础原理知识、基于Gibbs参数求解的详细过程,都是理论层面的,这篇博文我们来看看代码实现。LDA的原理过程回顾LDA生成过程LDA模型认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。每一篇文档代表了一些主题所构成的一个概率分布,而每一...原创 2020-03-27 11:36:18 · 1295 阅读 · 7 评论 -
文本主题模型LDA(二)求解之Gibbs采样算法
在第一篇文本主题模型LDA(一)之基础知识一文中已经详细讲解了LDA模型的基本原理过程,本小节将继续讲解LDA模型的基于Gibbs采样的参数求解过程,不了解Gibbs采样过程的可先阅读一下之前写的蒙特卡洛之Gibbs采样。Gibbs采样算法求解LDA的思路首先,回顾LDA的模型图如下在Gibbs采样算法求解LDA的方法中,我们的α,η\alpha,\etaα,η是已知的先验输入,我们的目标是...原创 2020-03-25 14:03:17 · 631 阅读 · 0 评论 -
文本主题模型LDA(一)之基础知识
从本节开始,打算总结一下自己对LDA模型的理解过程,由于LDA模型涉及到的数学知识众多,所以在本小节会先介绍一些相关的数学知识,做好铺垫。贝叶斯模型参数估计过程LDA是基于贝叶斯模型的,涉及到贝叶斯模型自然离不开“先验分布”,“数据(似然)”和"后验分布"三块。贝叶斯模型参数估计过程一般是这样:先验分布+数据(似然)=后验分布先验分布 + 数据(似然)= 后验分布先验分布+数据(似然)=后验分...原创 2020-03-22 21:58:02 · 661 阅读 · 0 评论 -
MCMC(三)蒙特卡洛之Gibbs采样
好机会原创 2020-03-21 23:07:39 · 487 阅读 · 0 评论 -
MCMC(二)蒙特卡洛之马尔可夫链
在MCMC(一)蒙特卡罗方法中,我们讲到了如何用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和的方法,但是这个方法需要得到对应的概率分布的样本集,而想得到这样的样本集很困难。因此我们需要本篇讲到的马尔科夫链来帮忙。马尔科夫链简述马尔科夫链定义本身比较简单,它假设某一时刻状态的取值只依赖于它的前一个状态。举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气...原创 2020-03-21 17:18:31 · 401 阅读 · 0 评论 -
MCMC(一)蒙特卡洛方法
MCMC概述从名字我们可以看出,MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Simulation,简称MC)和马尔科夫链(Markov Chain ,也简称MC)。要弄懂MCMC的原理我们首先得搞清楚蒙特卡罗方法和马尔科夫链的原理。Gibbs采样是蒙特卡洛方法求解过程的一个重要的通用采样方法。MCMC为谁而生?蒙特卡罗原来是一个赌场的名称,用它作为名字大概是因为蒙特卡罗方...原创 2020-03-21 12:08:09 · 713 阅读 · 0 评论 -
NLP词向量模型总结:从Elmo到GPT,再到Bert
词向量历史概述提到NLP,总离开不了词向量,也就是我们经常说的embedding,因为我们需要把文字符号转化为模型输入可接受的数字向量,进而输入模型,完成训练任务。这就不得不说这个转化的历史了。起初用于把文字转化向量,用的是最基础的词袋模型,类似于one-hot,不得不说,这种做法很简单粗暴,现在也还在用,但是维度过高,并且有些词出现多次一般来说更重要,而这种词袋模型无法表示,于是出现了以频率...原创 2020-02-05 12:39:15 · 3515 阅读 · 0 评论 -
条件随机场CRF(三)
上篇博文介绍了CRF的标记序列的概率计算,本片博文专注于CRF的参数学习问题和序列解码问题。CRF模型参数学习思路在CRF模型参数学习问题中,我们给定训练数据集XXX和对应的标记序列YYY,KKK个特征函数fk(x,y)f_k(x,y)fk(x,y),需要学习CRF的模型参数wkw_kwk和条件概率Pw(y∣x)P_w(y|x)Pw(y∣x)其中条件概率Pw(y∣x)P_w(y|x)Pw...原创 2020-01-20 19:23:05 · 2580 阅读 · 0 评论 -
条件随机场CRF(二)
CRF主要涉及到三个问题,标记序列概率的计算、参数的学习、序列的预测(解码),本片博文主要介绍第一个问题:标记序列概率的计算–前向后向算法,在博文中提到,在BI-LSTM-CRF模型框架的CRF层,当计算序列所有路径的总得分时就用到了前向后向算法的思想。CRF前向后向概率计算首先定义αi(yi∣x)\alpha_i(y_i|x)αi(yi∣x)表示序列位置iii的标记是yiy_iyi时,...原创 2020-01-19 22:50:15 · 236 阅读 · 0 评论 -
条件随机场CRF(一)
什么是条件随机场?条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用,比如常见的分词、词性标注、实体识别均有CRF的身影,下面层层刨析,解开其真面目。随机场首先,我们来看看什么是随机场。“随机场”的名字取的很玄乎,其实理解起来不难。随机场是由若干个位置组成的整体,当给每一个...原创 2020-01-15 23:29:13 · 234 阅读 · 0 评论 -
图文详解Transformer
Transformer源于2017年谷歌的一篇论文Attention is all you need,这篇论文极具创新性,提出了新的Transformer结构,此后在此基础上又出现了GPT、Bert等优秀模型,这些优秀模型都是在Transformer的基础上衍生出来的,所以本文详细介绍一下Transformer的原理。俯视Transformer本文以机器翻译为例,先整体来看Tranformer...原创 2019-10-13 13:36:26 · 15935 阅读 · 1 评论