![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 67
frostjsy
越努力,越幸运
展开
-
大模型llm综述
LLM 是指包含数千亿(或更多)参数的 Transformer 语言模型 ,这些模型是在大规模文本数据上进行训练的 , 例如 GPT-3 ,PaLM,Galactica 和 LLaMA。LLM 展现了理解自然语言和解决复杂任务(通过文本生成) 的强大能力。原创 2024-03-17 20:27:38 · 1157 阅读 · 0 评论 -
langchain入门
现将文本分段,然后逐段总结,最后合并各个总结。# 导入文本# 将文本转成 Document 对象# 初始化文本分割器# 切分文本# 加载 llm 模型# 创建总结链# 执行总结链,(为了快速演示,只总结前5段)原创 2024-03-10 21:28:57 · 1060 阅读 · 0 评论 -
Horovod分布式相关策略
https://github.com/horovod/horovod(Horovod github代码)https://zhuanlan.zhihu.com/p/45439173 (Horovod 通信策略)https://zhuanlan.zhihu.com/p/40578792 (Horovod-基于TensorFlow分布式深度学习框架)原创 2020-10-24 00:35:34 · 144 阅读 · 0 评论 -
p5模型详解
p5模型统一建模这5类任务,通过设计个性化prompt模版进行输入转换,转化为自然语言序列,作为encoder端的输入,再label进行prompt转化作为decoder的输出,通过seq2seq模型的损失函数进行预训练。下游应用时,给定目标输入,通过zero-shot的prompts模板进行输入转换,输入到encoder端进行编码,通过预训练好的decoder端进行解码,得到预测值,比如:下一次交互的item、评分、推荐理由、topK item ID等。对四个真实世界的数据集进行了广泛的实验。原创 2023-06-23 21:36:31 · 1470 阅读 · 0 评论 -
bert4rec简介
bert4rec整体架构如下图(b)所示,bert4rec是一个含有L层的transformer,每一层都可以利用上一层的信息,通过self-attention并行捕获任意位置的信息。原创 2023-06-22 23:20:36 · 1575 阅读 · 0 评论 -
自然语言处理的进阶之路
连乘链路太长,会导致数据稀疏,零频词太多。原创 2023-01-31 23:00:19 · 406 阅读 · 0 评论 -
搜索的基本框架
1、搜索与推荐 用户从海量文本中获取信息主要通过两个途径,搜索和推荐;搜索和推荐的区别在于,搜索是通过输入一定的信息,获取对应的信息,是一个主动获取信息的过程。推荐则是app/web根据用户的历史行为数据,猜测用户的喜好,进行内容的推送。2、搜索分类2.1.搜索分类 一般搜索分为大搜和垂搜,大搜就是像百度、google、bing等对相关网页进行搜素。垂搜指的是某一领域的搜索,比如爱奇艺中的视频检索、淘宝的商品检索、贝壳的房子搜索等。2.2、搜索基本模块 ...原创 2021-10-30 22:26:48 · 1173 阅读 · 0 评论 -
模型训练相关参数问题
1、bert那么大,你的训练数据只有10w,会过拟合吗,epcho是不是只能设置为1?看过epcho的曲线,当epcho小于10时,评测的效果会存在震荡的情况。epcho设置为20时,表现的比较稳定。2、分词时,你这边做了什么处理么?有一些领域特定的词,这边不需要把它分开,我们会把这些词加入jieba的初始词表中。3、句子向量如何表示,你有调研过么?doc2vec,emol,bert,albert等都可以用来表示句子向量4、word2vec求均值表示句向量是一种常见的方式,你有想过什原创 2021-03-12 17:58:44 · 981 阅读 · 0 评论 -
simhash详解及其他去重方法
1、https://daiwk.github.io/posts/ml-topknn.html(几种simhash表示,这个里面包含了simhash的计算)2、https://www.cnblogs.com/maybe2030/p/5203186.html(simhash详解)3、https://zhuanlan.zhihu.com/p/43640234(去重方法综述)原创 2021-03-11 15:53:15 · 217 阅读 · 0 评论 -
tf查看模型参数
命令:tf.train.list_variables("bert_model.ckpt")输出:[('bert/embeddings/LayerNorm/beta', [768]), ('bert/embeddings/LayerNorm/gamma', [768]), ('bert/embeddings/position_embeddings', [512, 768]), ('bert/embeddings/token_type_embeddings', [2, 768]), ('bert/原创 2021-03-07 17:20:37 · 874 阅读 · 0 评论 -
关键词抽取方法
1、关键词提取为了方便用户快速了解文章的中心主题,会抽取文章的一些中心词来表达文章的中心思想。关键词抽取就是通过一定的方法抽取出能表达文章的中心主题的一系列方法。2、关键词抽取方法分类2.1、有监督无监督抽取方法无监督关键词提取方法主要有三类:基于统计特征的关键词提取(TF,TF-IDF);基于词图模型的关键词提取(PageRank,TextRank);基于主题模型的关键词提取(LDA)基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词; 基于词图模型的关键词原创 2021-02-13 14:18:19 · 15942 阅读 · 2 评论 -
多轮对话改写
1、什么是改写人(A)和系统(B)的交流过程。用户的真实意思label是对用户上一句说的话A2进行信息还原(改写)eg:标签Label是根据上下文A1,B1;对A2的改写2、如何评价改写《Transformer多轮对话改写实践》博客一文中介绍道,可以通过3种策略来实现;比较生成文本和参考文本之间重叠的一元字数,二元字数;根据最长公共子序列得出;3、参考论文和githubhttps://github.com/zhusleep/tagger_rewriterhttps:.原创 2020-12-31 22:45:41 · 828 阅读 · 0 评论 -
bert源码详解
1、bert源码详解博客https://zhuanlan.zhihu.com/p/103226488(80% 10% 10%mask策略的具体计算逻辑;这是我影响比较深的一段代码逻辑)原创 2020-11-24 23:51:29 · 1178 阅读 · 0 评论 -
albert每两层共享参数
1、albert的原始实现(brightmart实现)def transformer_model(input_tensor, attention_mask=None, hidden_size=768, num_hidden_layers=12, num_attention_heads=12,原创 2020-11-24 22:47:57 · 1084 阅读 · 0 评论 -
模型压缩文章总结
1、模型压缩好文章汇https://zhuanlan.zhihu.com/p/94359189(tinybert)在统计学中,均方误差(英语:mean-square error、MSE)是对于无法观察的参数X的一个估计函数T;其定义为:MSE(T)=E((X-T)^2)在文中针对各层介绍了几种损失函数:1、embedding层:teacher和student的词嵌入层的蒸馏均方误差损失2、transform层蒸馏:隐层损失和attention损失3、预测层损失,teache.原创 2020-11-18 20:53:43 · 423 阅读 · 0 评论 -
Albert详解
https://zhuanlan.zhihu.com/p/108105658(albert两个修改点详解,权重共享,因式分解)原创 2020-10-26 18:03:55 · 390 阅读 · 0 评论 -
文本相似度
相关综述:https://www.cnblogs.com/xlturing/p/6136690.html原创 2020-10-25 13:29:07 · 83 阅读 · 0 评论 -
预训练综述
一、简介1.1、预训练影响: ELMo/GPT/BERT预训练模型的相继提出,NLP找到了可以像计算机视觉那样的迁移学习方法。NLP领域预训练模型,采用自监督 学习方法,将大量无监督文本送入模型中进行学习,得到可通用的预训练模型。NLP领域有大量的无监督学习数据。大量研究工作表明,大量的数据可以不断提高模型的性能表现,与此同时压缩模型参数也成为研究热点,例如ALBERT,ELECTRA。预训练和模型压缩引导NLP将大量非监督文本充分利用起来,进行语言知识编码,指导下游NLP任务。...原创 2020-10-24 15:20:19 · 3787 阅读 · 3 评论 -
自然语言处理相关书整理
很多自然语言相关的电子书 (百度网盘地址,里面需要付费,但是不太贵,有需要的可以自取)https://www.yuque.com/mathpythondata/kt4xgg/lz8z6d原创 2020-10-23 23:35:10 · 126 阅读 · 0 评论 -
bert生成词向量
参考网址:https://www.jianshu.com/p/fbde57f91f0f原创 2020-10-11 19:43:29 · 2130 阅读 · 0 评论 -
主动学习
1、为什么要提出主动学习 减少标注的代价,快速提高模型的判别能力参考https://zhuanlan.zhihu.com/p/39367595(主要讲了主动学习英应用的场景和常见的策略,常见的策略讲的较为粗略)https://www.zhihu.com/question/265479171(主动学习的方法详细介绍)https://www.sohu.com/a/228466371_99940985(主动学习与半监督算法结合在支付宝风控的应用)https://www.rc...原创 2020-09-28 18:27:02 · 255 阅读 · 0 评论 -
循环神经网络
1、基础神经网络神经网络可以当做是能够拟合任意函数的黑盒子,只要训练数据足够,给定特定的x,就能得到希望的y,结构图如下:将神经网络模型训练好之后,在输入层给定一个x,通过网络之后就能够在输出层得到特定的y,那么既然有了这么强大的模型,为什么还需要RNN(循环神经网络)呢?2、RNN引入原因1、只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的2、某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的3、RNN结构首先看一个简单的循环神经网原创 2020-09-27 23:36:28 · 1209 阅读 · 0 评论 -
textcnn详解
一. TextCNN是什么 我们之前提前CNN时,通常会认为是属于CV领域,用于计算机视觉方向的工作,但是在2014年,Yoon Kim针对CNN的输入层做了一些变形,提出了文本分类模型textCNN。与传统图像的CNN网络相比, textCNN 在网络结构上没有任何变化(甚至更加简单了), 从图一可以看出textCNN 其实只有一层卷积,一层max-pooling, 最后将输出外接softmax 来n分类。 ...原创 2020-09-23 00:06:02 · 25392 阅读 · 0 评论 -
ord居然可以识别中文
1、ord居然可以识别中文bert BasicTokenizer时有if cp == 0 or cp == 0xfffd or _is_control(char),我这边是处理中文的预训练,之前用ord处理英文字符;看bert的Tokenizer源码,发现也是走这段代码ord('见')#输出:352652、字符和数字之间的转换ord("a")#97chr(97)#'a'参考网址https://blog.csdn.net/Jerry_1126/article/details原创 2020-08-31 14:04:35 · 635 阅读 · 0 评论 -
梯度消失与梯度爆炸产生原因及解决方法
1 、什么是梯度消失和梯度爆炸在反向传播过程中需要对激活函数进行求导,如果导数大于1,那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1,那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此,梯度消失、爆炸,其根本原因在于反向传播训练法则,属于先天不足。2、梯度消失、爆炸导致原因2.1、从BP(反向传播原理)解释梯度消失和梯度爆炸举例,一个简单的深层网络如下:图中是一个四层的全连接网络,假设每一层网络激活后..原创 2020-08-30 19:16:30 · 22069 阅读 · 7 评论 -
bert词典构建
参考网址https://www.yinxiang.com/everhub/note/c9c56496-cc07-4cf3-81d4-ff2a3353272f(bert三种token方式详解)https://github.com/fighting41love/funNLP(各种词库)https://tech.meituan.com/2019/11/14/nlp-bert-practice.html(美团实践)https://blog.csdn.net/u011984148/article...原创 2020-08-28 10:11:38 · 2609 阅读 · 0 评论 -
浅谈混合精度
参考网址:https://zhuanlan.zhihu.com/p/103685761 (浅谈混合精度的文章)https://flashgene.com/archives/81666.html(华为开源的哪吒)原创 2020-08-27 20:46:07 · 634 阅读 · 0 评论 -
Transform详解
1、Transform简介Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。2、Transform结构原创 2020-08-18 18:50:55 · 106563 阅读 · 1 评论 -
词向量表示
1、语言表示语音中,用音频频谱序列向量所构成的矩阵作为模型的输入;在图像中,用图像的像素构成的矩阵数据作为模型的输入。这些都可以很好表示语音/图像数据。而语言高度抽象,很难刻画词语之间的联系,比如“麦克风”和“话筒”这样的同义词,从字面上也难以看出这两者意思相同,即“语义鸿沟”现象。1.1、分布假说上下文相似的词,其语义也相似。1.2、语言模型文本学习:词频、词的共现、词的搭配。语言模型判定一句话是否为自然语言。机器翻译、拼写纠错、音字转换、问答系统、语音识别等应用在得到若干候...原创 2020-08-12 23:53:10 · 4533 阅读 · 1 评论 -
多标签分类(A Review on Multi-Label Learning Algorithms)
一、multi label是什么? 传统监督学习主要是单标签学习,而现实生活中目标样本往往比较复杂,具有多个语义,含有多个标签,比如一部电影可以同时被分为喜剧片和动作片,一则新闻可以同时属于政治和法律。二、多标签任务定义: X=Rd表示d维的输入空间,Y={y1,y2,...,yq}表示带有q个可能标签的标签空间。训练数据D(xi,yi),xi是一个d维的向...原创 2020-05-05 23:58:59 · 923 阅读 · 0 评论 -
NLP总结的性的网址收藏
1、5篇论文简介网址Multimodal Word Distributions、Topically Driven Neural Language Model、http://www.dataguru.cn/article-12315-1.html2、https://www.datalearner.com/blog/10515533145935683、分词,词性标准论文好论文汇总网址...原创 2019-08-01 21:06:03 · 165 阅读 · 0 评论 -
python的正则表达式'\w'居然可以匹配中文
一、正则表达式总结较好的网址https://www.jb51.net/tools/regexsc.htm二、正则表达式先行断言和后行断言问题详解https://www.cnblogs.com/sdgjytu/p/3669364.html(?=pattern) 正向先行断言代表字符串中的一个位置,紧接该位置之后的字符序列能够匹配pattern。(?!pattern) 负向先...原创 2019-06-19 21:11:01 · 2835 阅读 · 2 评论 -
BOW模;型CountVectorizer模型;tfidf模型;
自然语言入门一、BOW模型:使用一组无序的单词来表达一段文字或者一个文档,并且每个单词的出现都是独立的。在表示文档时是二值(出现1,不出现0);eg:Doc1:practice makes perfectperfect.Doc2:nobody is perfect.Doc1和Doc2作为语料库:词有(practice makes perfect nobody is)Doc...原创 2019-06-12 15:13:27 · 633 阅读 · 0 评论