
NLP/自然语言处理
文章平均质量分 73
KG/数据集
u013250861
这个作者很懒,什么都没留下…
展开
-
NLP:自然语言生成中的top-k, top-p, typical采样方法的实现
例如,在自回归式的生成中,模型预测的生成序列 y 的第 t 个值 yt 往往是预测出一个概率分布 p(yt|y原创 2023-04-10 11:43:03 · 1632 阅读 · 1 评论 -
NLP-第三方库:Huggingface【非常流行的 NLP 库,用于构建、训练和部署最先进的 NLP 模型】【提供了两个主要的库:用于模型的transformers、用于数据集的datasets】
Hugging face 起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库,虽然聊天机器人业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超100,000个预训练模型,10,000个数据集,变成了机器学习界的github。其之所以能够获得如此巨大的成功,一方面是让我们这些甲方企业的小白,尤其是入门者也能快速用得上科研大牛们训练出的超牛模型。另一方面是,这种特别开放的文化和态度,以及利他利己的精神特别吸原创 2023-02-19 21:10:03 · 999 阅读 · 0 评论 -
堆叠自动编码器(Stacked AutoEncoder)
对于分类任务,往往在自动编码器顶端再添加一分类层(如Softmax层),并结合有标注的训练数据,在误差函数的指导下,对系统的参数进行微调,以使得整个网络能够完成所需的分类任务。降噪自编码器(Stacked Denoising Autoencoders)核心思想是,一个能够从中恢复出原始信号的表达未必是最好的,能够对“被污染/破坏”的原始数据编码、解码,然后还能恢复真正的原始数据,这样的特征才是好的。对我们来说,此时的h是至关重要的,因为它是在尽量不损失信息量的情况下,对原始数据的另一种表达。原创 2022-12-19 12:15:43 · 4520 阅读 · 0 评论 -
NLP第四范式:Prompt概述【Pre-train,Prompt(提示),Predict】【刘鹏飞】
prompt顾名思义就是“提示”的意思,应该有人玩过你画我猜这个游戏吧,对方根据一个词语画一幅画,我们来猜他画的是什么,因为有太多灵魂画手了,画风清奇,或者你们没有心有灵犀,根本就不好猜啊!这时候屏幕上会出现一些提示词比如3个字,水果,那岂不是好猜一点了嘛,毕竟3个字的水果也不多呀。看到了吧,这就是prompt的魅力,让我们心有灵犀一点通!(我不太会画哈,大家想象一下就行啦,嘿嘿嘿~~~)论文以一种新的自然语言处理范式,称为“prompt-based learning”。该框架功能强大且具有吸引力,原因有原创 2022-07-05 21:57:12 · 8134 阅读 · 0 评论 -
NLP四范式:范式一:非神经网络时代的完全监督学习(特征工程);范式二:基于神经网络的完全监督学习(架构工程);范式三:预训练,精调范式(目标工程);范式四:预训练,提示,预测范式(Prompt工程)
自然语言处理(Natural Language Processing,NLP)是计算机科学,人工智能,语言学关于计算机和人类自然语言之间的相互作用的领域,是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理历史悠久,早在1949年的时候,美国人威弗就提出了机器翻译设计方案,可以视为自然语言处理领域的开端,此后自然语言处理在不断的发展,在上世纪该领域的方法主要是基于规则的方法和基于统计学的方法,这类方法效率较低,耗费人力,且无法处理大规模的数据集,因此自然语言处理领域一直不温不火。2008年以来,随着原创 2022-07-03 11:43:37 · 2678 阅读 · 0 评论 -
NLP综述:知识脉络图、四大类任务【序列标注(分词、词性标注、NER)、分类任务(文本分类、情感分析)、句子关系判断(顺序判断、相似度计算)、生成式任务(机器翻译、问答 、文本摘要)】
四大类任务【序列标注(分词、词性标注、NER)、分类任务(文本分类、情感分析)、句子关系判断(顺序判断、相似度计算)、生成式任务(机器翻译、问答 、文本摘要)】原创 2021-04-01 15:48:49 · 1982 阅读 · 3 评论 -
自然语言处理(NLP):概述【NLP技术的四个维度:声音、单词、句子结构、语义】
深度学习-自然语言处理:概述【NLP技术的四个维度:声音、单词、句子结构、语义】一、NLP的主要问题二、NLP技术的四个维度1、声音2、单词/Morphology层面的技术2.1 Word Segmentation(分词)2.2 Part-Of-Speech(POS/词性标注)2.3 Named Entity Recognition(NER/命名实体识别)3、句子结构/Syntax层面的技术3.1 句法分析3.2 依存分析4、语义/Semantic层面的技术4.1 机器学习算法4.2 情感分析三、练手|常见原创 2021-02-03 23:31:36 · 2707 阅读 · 0 评论 -
人工智能-自然语言处理(NLP):NLP技术栈
参考资料:NLP 常规任务用 bert 类模型几行代码就能解决,那 NLP 岗主要存在的价值是什么?原创 2021-07-08 21:51:01 · 1513 阅读 · 0 评论 -
深度学习-神经网络-循环神经网络(一):RNN(Recurrent Neural Network,循环神经网络;1990年)
为什么有了神经网络还需要有循环神经网络?在普通的神经网络中,信息的传递是单向的,这种限制虽然使得网络变得更容易学习,但在一定程度上也减弱了神经网络模型的能力。特别是在很多现实任务中,网络的输出不仅和当前时刻的输入相关,也和其过去一段时间的输出相关。此外,普通网络难以处理时序数据,比如视频、语音、文本等,时序数据的长度一般是不固定的,而前馈神经网络要求输入和输出的维数都是固定的,不能任意改变。因此,当处理这一类和时序相关的问题时,就需要一种能力更强的模型。循环神经网络(Recurrent Neural Net原创 2022-07-21 22:29:15 · 14158 阅读 · 0 评论 -
深度学习-神经网络-循环神经网络(二):LSTM【最多200个上下文;1997】 --> GRU【2014】【三者都无法并行计算】
LSTM是RNN的升级版,加入了forget、input、output三个步骤,包含3个门,5对参数,两次更新。赋予了RNN选择性记忆的能力,一定程度解决了RNN中Long Term Dependency(长期依赖)的问题。LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为,而非需要付出很大代价才能获得的能力!由于内部结构相对较复杂, 因此训练效率在同等算力下较传统RNN低很多.下一步是确定什么样的新信息被存放在细胞状态中。这里包含两个部分。第一,sigmoid 层称原创 2020-12-18 23:00:55 · 1390 阅读 · 1 评论 -
自然语言处理(NLP)-语言模型【用来判断一句话语法上是否通顺】:N-gram语言模型(基于语料库的统计结果)--> N-gram神经网络语言模型 【语言模型的评估(①:PPL困惑度;②:BPC)】
人工智能-自然语言处理(NLP):Language Model(语言模型)原创 2021-02-06 23:55:27 · 7725 阅读 · 0 评论 -
NLP中的BPE(byte pair encoding)分词算法【subword 切词】
2016年左右(改论文发表于2016)Neural machine translation(NMT)中有着一个众所周知的问题——稀有词与未知词的翻译问题。一般来说,神经网络中的词表被限制在30000-50000个词汇,但是对于翻译来说,各种词汇都可能出现(比如英语中的复合词汇,网络新词等),这种限制无疑使问题解决得效果大打折扣。对于英语来说,一个单词可能有不同时态,进行时,过去时,一般现在时等,比如look, looking, looks, looked这些单词都表示的意思,但是传统处理手段就是在词表中为这原创 2022-06-29 00:25:01 · 741 阅读 · 0 评论 -
自然语言处理(NLP)-模型常用技巧:Normalization【Batch Norm、Layer Norm】
对于NLP中 Mask 的作用(ps:padding mask 和 sequence mask不是官方命名):Padding mask:处理非定长序列,区分padding和非padding部分,如在RNN等模型和Attention机制中的应用等Sequence mask:防止标签泄露,如:Transformer decoder中的mask矩阵,BERT中的[Mask]位,XLNet中的mask矩阵等一、Padding Mask【处理非定长序列】在NLP中,文本一般是不定长的,所以在进行 batc原创 2021-07-31 21:46:02 · 1935 阅读 · 0 评论 -
NLP:数据增强/Data Argumentation【词汇替换、随机Mask、回译、添加噪声】
数据增强技术在计算机视觉中应用的比较广泛,但是在 NLP 中却很少能得到有效的应用。本质原因在于图像中的一些数据增强方法,比如将图像旋转几度或将其色度转换为灰度,在增强数据的同时并不会改变图像本身的含义。这种特性使得数据增强成为计算机视觉研究中的一种重要工具。我对是否有人尝试去开发 NLP 相关的数据增强技术很感兴趣,所以找时间研究了一下现有的文献。在这篇文章中,我会努力去概述当前用于文本数据增强的方法,同时也提供对应的参考文献,供大家学习。参考资料:一文了解NLP中的数据增强方法NLP数据增原创 2022-03-06 21:15:00 · 2341 阅读 · 0 评论 -
归一化:Layer Normalization、Batch Normalization
Normalization 有很多种,但是它们都有一个共同的目的,那就是把输入转化成均值为 0 方差为 1 的数据。我们在把数据送入激活函数之前进行 normalization(归一化),因为我们不希望输入数据落在激活函数的饱和区。同时,使得训练数据在训练过程中尽可能的保持和测试数据拥有相同的分布。一方面,这样可以减少数据的偏差,避免在训练过程中出现梯度爆炸或是梯度消失的问题;另一方面,这也是确保模型测试性能的重要假设之一。二者提出的目的都是为了加快模型收敛,减少训练时间。LN:Layer原创 2022-02-22 22:15:00 · 1087 阅读 · 0 评论 -
NLP:文本聚类【PCA-->K-means】
什么是文本聚类?文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算那些点距离比较近来将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。文本聚类的难点是什么?聚类是一种非监督学习,也就是说聚成几类,怎么聚,我们都不知道,只能一点点试出来。但是有时候机器认为这两堆点可以认为是两个簇,但人理解可能是一个簇,文本聚类就就难在了这里,机器与人的理解不太一样。一般能看到这个博的人都学过基本的聚类算法,拿k-me原创 2022-02-23 02:27:08 · 2458 阅读 · 0 评论 -
预测解码算法:①贪心算法(当前时间步最优解)、②BeamSearch算法(每个时间步都保留前k个最优解)、③维特比算法(动态规划,全局最优解)
预测解码算法:①贪心算法(当前时间步最优解)、②BeamSearch算法(每个时间步都保留前k个最优解)、③维特比算法(动态规划,全局最优解)参考资料:[L2]seq2seq中Beam search~贪心与维特比维特比算法与beam search...原创 2022-01-28 22:45:00 · 534 阅读 · 0 评论 -
NLP-文本摘要:Rouge评测方法【Rouge-1、Rouge-2、Rouge-L、Rouge-W、Rouge-S】
《原始论文:Rouge: A package for automatic evaluation of summaries》Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。一、Rouge-N(Rouge-1,Rouge-2)1、公式分母是参考摘要(人工摘原创 2021-11-18 23:15:00 · 12388 阅读 · 0 评论 -
Auto-Regressive(自回归)、Auto-Encoding(自编码)
参考资料:Seq2seq, autoregressive, autoencoding的区别,三百字讲清楚原创 2021-10-26 22:15:00 · 2587 阅读 · 0 评论 -
自然语言处理(NLP)-模型常用技巧:Mask【Padding Mask、Subsequent Mask】
对于NLP中 Mask 的作用(ps:padding mask 和 Subsequent mask不是官方命名):Padding mask:处理非定长序列,区分padding和非padding部分,如在RNN等模型和Attention机制中的应用等Subsequent mask:防止标签泄露,如:Transformer decoder中的mask矩阵,BERT中的[Mask]位,XLNet中的mask矩阵等一、Padding Mask【处理非定长序列】在NLP中,文本一般是不定长的,所以在进行原创 2021-10-25 23:15:00 · 9279 阅读 · 3 评论 -
Linux系统:自然语言处理(NLP)环境搭建【基于智能文本分类系统安装部署】
Linux系统:自然语言处理(NLP)环境搭建原创 2021-03-02 23:12:27 · 1350 阅读 · 1 评论 -
深度学习-神经网络:AWD-LSTM
自然语言处理(NLP)原创 2021-03-20 20:30:51 · 1058 阅读 · 0 评论 -
自然语言处理(NLP)-下游任务&数据集:语言模型、机器翻译、问答、文本分类、情感分析、文本生成、自动摘要、命名实体识别、阅读理解、自然语言推理、信息提取、词性标注、共指消解、实体链接【>200项】
自然语言处理(NLP)原创 2021-03-02 23:15:49 · 5778 阅读 · 0 评论 -
自然语言处理(NLP)-预训练模型:别人已经训练好的模型,可直接拿来用【ELMO、BERT、ERNIE(中文版BERT)、GPT、XLNet...】
预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型. 在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.原创 2020-12-21 23:05:56 · 2711 阅读 · 1 评论 -
自然语言处理(NLP)-子词模型(Subword Models):BPE(Byte Pair Encoding)、WordPiece、ULM(Unigram Language Model)
NLP三大Subword模型详解:BPE、WordPiece、ULM原创 2021-02-27 22:12:20 · 1144 阅读 · 0 评论 -
NLP-预训练模型:迁移学习(拿已经训练好的模型来使用)【预训练模型:BERT、GPT、Transformer-XL、XLNet、RoBerta、XLM、T5】、微调、微调脚本、【GLUE数据集】
人工智能-自然语言处理(NLP):迁移学习(拿已经训练好的模型来使用)【预训练模型(BERT、GPT、roBERTa、transformer-XL)、微调、微调脚本】预训练模型(Pretrained model)- 一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型。在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型原创 2021-03-02 23:17:54 · 3087 阅读 · 0 评论 -
自然语言处理(NLP)-特征提取器(Feature Extractors):CNN、RNN/LSTM、Transformer
自然语言处理(NLP)-特征提取器:CNN、RNN/LSTM、Transformer原创 2021-07-22 22:06:41 · 2164 阅读 · 0 评论 -
深度学习-生成模型:Generation(Tranform Vector To Object with RNN)【PixelRNN、VAE(变分自编码器)、GAN(生成对抗网络)】
Native Generator (AutoEncoder's Decoder)- 通过原始AutoEncoder训练的Decoder作为Generator,此Generation的效果不好,因为此Generator是一个Network,是非线性模型;- 如果给此Generator喂进去的vector不是训练时训练过的,则无法通过Generator输出有效数据。PixelRNN## 1、生成句子序列- 拿生成句子为例,在我们生成好的RNN模型里,我们输入开头,模型可以输出一系列的输出。- 如下图,原创 2020-12-21 22:14:09 · 1010 阅读 · 1 评论 -
深度学习-生成模型:Conditional Generation(Generation based on another Embedding)
人工智能-机器学习-深度学习:Life Long Learning原创 2020-12-24 23:50:19 · 532 阅读 · 0 评论 -
自然语言处理(NLP):工程化部署
工程化部署是程序在开发完成之后,到线上正式运行整个过程中涉及到的多个环节的统称,主要包括:接口封装接口测试GPU 的分配和使用微服务的封装Docker 镜像的构建K8S 集群实例的开启等接口封装、接口测试、镜像构建、 CI/CD、 GPU 部署、 K8S 集群部署等这些在工业生产中极为重要;企业里服务部署的整体流程、 Flask HTTP 接口封装、单元测试 接口测试 压力测试、 Docker 化微服务、 K8S 集群的优势及过程参考资料:如何解决推荐系统工程难题——深度学习推原创 2021-03-28 21:56:47 · 971 阅读 · 1 评论 -
自然语言处理(NLP):国内会议
众所周知,参加学术会议是进入学术圈、走进学术前沿的重要方式。在学术会议上,不仅可以集中听取最新的成果报告,还有讲习班、工作坊、社交活动等形式,了解那些不会写到论文中的八卦与动态,结识学术大佬和朋友,走向学术人生巅峰。ACL、EMNLP、NAACL、COLING等NLP领域的顶级国际会议,想必大家已经耳熟能详。但是对很多学生(即使国外学生)而言,想参加这些会议也并非易事,由于注册费和差旅费很高,一般要有论文发表导师提供经费支持,而且长途跋涉也充满了签证申请、旅馆预订等不确定因素。作为学生,每年能出去成功且安原创 2021-08-27 21:28:55 · 3846 阅读 · 0 评论 -
自然语言处理(NLP):竞赛平台【国际、国内】
“白嫖数据的圣地,NLP技能的训练场”,当你觉得学好了NLP技能想练手却苦于没有数据;当你工作学习之于想通过真实NLP项目来增加项目经验却苦于没有业务场景;当你觉得自己已经是大佬了想赚外快却苦于没有平台之时,那么NLP比赛无疑是你最好选择,白嫖数据、真实业务、丰厚奖金,真香无疑。一、国际比赛二、国内比赛1、知名算法竞赛平台Biendatahttps://www.biendata.com/DataFountainhttps://www.datafountain.cn/DC竞赛htt原创 2021-08-27 21:18:17 · 3287 阅读 · 0 评论