NLP
文章平均质量分 95
NLP算法论文
BGoodHabit
这个作者很懒,什么都没留下…
展开
-
Agent理解以及基于大模型LLM的智能体Agent框架LlamIndex和LangChain介绍
Agent介绍以及如何基于LlamIndex和LangChain构建自己的Agent应用原创 2024-07-31 12:13:06 · 486 阅读 · 0 评论 -
ChatGPT fine tune微调+prompt介绍
提供了非常强大能力,能够基于学到的广泛知识,给出问题解决方案,合理的建议,实施步骤,商业计划,人物描写等等。所以我们可以合理写prompt,更有意思的答案。哈哈,看起来不够大胆,于是进一步发问给出的这些答案果然更加激动人心。原创 2023-03-29 20:02:05 · 31472 阅读 · 17 评论 -
LTR (Learning to Rank): 排序算法 poitwise, pairwise, listwise常见方案总结
目录1 类型1.1 poitwise1.2 pairwise1.3 listwise2 lamdarank2.1 原理2.2 tensorflow代码实现3 LambdaMART3.1 原理3.2 代码实现1 类型1.1 poitwise1.2 pairwise1.3 listwisetensorflow rank code2 lamdarank2.1 原理https://zhuanlan.zhihu.com/p/2706089872.2 tensorflow代码实现3 LambdaMA原创 2022-11-17 10:45:00 · 4470 阅读 · 0 评论 -
2022 ACL accepted论文集资料以及关键词分析
2022 ACL 论文集合关键词分析原创 2022-10-10 12:02:33 · 1546 阅读 · 3 评论 -
GBDT算法原理讲解以及常用的训练框架汇总:XGBoost LightGBM CatBoost NGBoost
GBDT算法原理和训练框架汇总原创 2022-03-30 16:34:23 · 3571 阅读 · 0 评论 -
如何融合多任务学习 (Multi-Task Learning ) 损失函数loss
Multi-Task Learning Loss原创 2021-12-19 20:01:24 · 20123 阅读 · 8 评论 -
query与document文本相关性计算总结
目录1 前言2 文本相关性技术2.1 TFIDF2.2 BM252.3 KL2.4 Term Weight2.5 Proximity2.6 Position Language Model2.7 Markow Random Filed3 term紧密度1 前言一个基本的信息检索系统,可以抽象为给定一个查询query,检索出最能满足用户需求的item,也就是求出概率P(Di∣Q)P(D_i| Q)P(Di∣Q)最大的doc DiD_iDi。根据贝叶斯公式展开如下:argmax P(Di∣Q) \op原创 2021-10-31 15:26:46 · 2773 阅读 · 0 评论 -
词权重 (term weight)方案总结
目录1 无监督 (unsupervised) 方法1.1 统计方法(TF, TF-IDF, YAKE)1.2 图方法 (TextRank, SingleRank, TopicRank, PositionRank)2 有监督 (supervised ) 方法2.1 Delta TF-IDF2.2 TF-IDF-ICF2.3 TF-RF2.4 TF-IGM3 语义学习方法3.1 基于关键词学习3.2 基于文本分类3.3 基于检索语义向量匹配4 文本分计算4.1 BM254.2 结合term weight1 无原创 2021-09-06 19:47:03 · 5258 阅读 · 1 评论 -
BiLSTM, CRF,BiLSTM+CRF原理讲解以及viterbi算法python实现
目录1 bilstm2 CRF3 bilstm+crf4 约束关系应用bilstm+crf解读:1 bilstm1.只有bilstm,只学习token到label的关系,但是分词还有一个特性,就是label与label之间存在约束bilstm的计算和学习过程loss,以及预测过程流程说明2 CRF3 bilstm+crf2.bilstm+crf解读crf分值:发射概率+转移概率路径的分值:发射分值:x1+x2+x3,+ 转移分值:y1->y2+y2->y3 =s最终 t原创 2021-08-08 17:08:02 · 3808 阅读 · 0 评论 -
正则化(regularization)方法总结
8.7 归一化和正则化的区别https://arxiv.org/pdf/1706.05350.pdf?source=post_page(https://arxiv.org/pdf/1706.05350.pdf?source=post_pagehttps://ai-pool.com/a/s/understanding-of-regularization-in-neural-networks原创 2021-06-30 23:19:15 · 19029 阅读 · 5 评论 -
深度学习归一化 (normalization) 方法总结: BN, LN, WN, IN, GN, SN
方差是协方差的一种特殊情况,即变量与自身的协方差。https://zhuanlan.zhihu.com/p/37609917首先对各原理介绍讲解清楚然后综合考虑在DL模型中以及自己实际的业务场景,这样做的一个意图原创 2021-05-29 21:38:02 · 2071 阅读 · 1 评论 -
中文纠错(Chinese Spelling Correct)最新技术方案总结
目录1 传统技术2 深度学习技术2.1 FASPell2.1.1 技术方案2.1.2 优点和缺点2.2 SpellGCN2.2.1 技术方案2.2.2 优点和缺点2.3 Soft-Mask BERT2.3.1 技术方案2.3.2 优点和缺点2.4 Stand-alone2.4.1 技术方案2.4.2 优点和缺点2.5 Spelling Correction as a Foreign Language2.5.1 技术方案2.5.2 优点和缺点2.6 Hierarchical Attention2.6.1原创 2021-03-20 15:49:23 · 10477 阅读 · 3 评论 -
经典CTR预估模型:LR, FM, FFM, Wide&Deep, DeepFM, DSSE 算法对比总结
目录1 LR1.1 原理1.2 优点1.3 缺点2 FM (Factorization Machines)2.1 多项式回归模型2.2 为什么FM两两特征交叉的权重参数学习由n2n^2n2减少到n×kn\times kn×k?2.3 FM模型的时间复杂度如何从O(kn2)O(kn^2)O(kn2)降低到O(kn)O(kn)O(kn)?3 FFM3.1 引入Field-aware3.2 为什么权重数量为n×k×fn\times k \times fn×k×f,计算复杂度为k×n2k\times n^2k×n2原创 2021-01-17 22:30:31 · 1797 阅读 · 0 评论 -
计算机求导方法:自动微分(Automatic Differentiation)
目录目的参考目的1.归纳求导方法2. tensorflow怎么求导3. 平时自己定义的loss,怎么求导的,有没有有些loss没法求导的?参考https://www.youtube.com/watch?v=wG_nF1awSSYhttps://www.youtube.com/watch?v=ZGSUrfJcXmAhttps://www.youtube.com/watch?v=sq2gPzlrM0ghttps://www.youtube.com/watch?v=boIOgsu-Q8Ehtt原创 2020-11-29 12:16:24 · 7920 阅读 · 1 评论 -
机器翻译(Machine Translation):seq2seq模型+attention机制
目录1 定义2 进展2.1 规则匹配模型2.1 统计翻译模型2.2 seq2seq模型1 定义机器翻译 (Machine Translation)是一个将源语言句子xxx翻译成目标语言句子yyy的过程。机器翻译的相关研究与19世纪50年代。2 进展2.1 规则匹配模型在19世纪50年代,机器翻译受到冷战时期推动,翻译系统主要是将俄语翻译成英语,通过规则匹配,从双语对应关系字典库中查找源语言对应的目标语言。2.1 统计翻译模型从1990年到2010年,主流方法是统计模型,其核心思想就是从数据中学原创 2020-11-18 11:18:02 · 1213 阅读 · 0 评论 -
multi-label基本实现方法以及如何提高extreme分类label的训练速度
目录1 Multi-label定义2 实现方法2.1 多个二分类方式2.2 encoder-decoder方式3 怎么提高速度(extrem multi-label)3.1 负采样3.2 hierarchical softmax3.3 loss?1 Multi-label定义在文本分类中,Multi-label 分类Multi-class分类的区别是,如果一个文本对应多个label,则需要做Multi-label分类,如果每个文本只对应一个label,则是Multi-class文本分类。Approac原创 2020-11-08 19:06:35 · 2050 阅读 · 0 评论 -
NLP中的attention机制总结
目录1 attention机制原理2 attention类型2.1 依据attention是否参数化可导分类2.1.1 Soft attention2.1.2 Hard attention2.2 依据输入是否全部用来计算attention向量分类2.2.1 Global attention2.2.2 Local attention2.3 依据attention实现功能分类2.3.1 Self Attention2.3.1.1 原理2.3.1.2 典型代表2.3.1.3 代码实现2.3.2 Multi-Hea原创 2020-11-01 14:58:44 · 2142 阅读 · 1 评论 -
seq2seq model: beam search和attention机制理解
目录1 seq2seq模型结构1.1 Encoder和Decoder1.1.1 Encoder1.1.2 Decoder1.2 attention机制1.2.1 为什么需要attention1.2.2 attention结构1.2.3 attention计算方法2 模型训练2.1 数据格式2.2 优化目标函数2.3 代码实现3 模型预测3.1 beam search3.1.1 为什么需要beam search3.1.2 与viterbi区别1 seq2seq模型结构1.1 Encoder和Decoder原创 2020-10-21 20:54:06 · 1322 阅读 · 0 评论 -
关键词提取(keyword extraction)技术
目录1 统计方法(Statistical Method)1.1 TF1.2 TFIDF1.3 YAKE2 图方法(Graph Based Approaches)2.1 TextRank2.1.1 PageRank2.2 SingleRank2.3 TopicRank2.4 PositionRank3 语义模型(Semantic Models)1 统计方法(Statistical Method)基于统计方法的核心思想就是计算文本中每个term的分值,有了分值,就可以对所有的term进行排序,然后获取top原创 2020-10-08 10:31:10 · 9204 阅读 · 0 评论 -
Deep Learning模型中常见的optimizer优化器算法总结
目录1. 优化算法在DL中的挑战1.1 优化算法定义1.2 挑战:局部最小值与鞍点2. 常见的优化算法2.1 梯度下降 (gradient descent)2.1.1 梯度下降算法可以降低目标函数值原因2.1.2 学习率设定2.2 随机梯度下降 (stochastic gradient descent)2.3 批量随机梯度下降 ( batch gradient descent)2.4 Momentum2.5 Adagrad2.6 RMSProp2.7 Adadelta2.8 Adam1. 优化算法在DL中原创 2020-10-01 11:20:24 · 2025 阅读 · 0 评论 -
分类任务,回归任务以及排序任务指标评估汇总:F1分值,ROC,AUC,MAE, MSE,MRR, NDCG,RC
分类任务,回归任务,排序任务常见评估指标: ROC, AUC, NDCG, RC等原创 2020-08-29 19:46:56 · 3298 阅读 · 1 评论 -
如何融合Multi-task任务中的单任务loss
最近Multi-task learning在学术界和业界受到大家广泛的研究和关注。很多试验证明了Multi-task learning有利于单任务学习,当然,这也符合我们人类学习特性,同时, Multi-task learning通过共享底层模型来实现多个任务,在预测速度和资源利用方面都得到较好的改善,所以在业界也得到了广泛的应用。那么平时在实践中,假如三个任务,怎么融合多个任务loss?loss=a∗loss1+b∗loss2+c∗loss3loss = a*loss_1 + b*loss_2 + c*原创 2020-08-08 17:53:53 · 1750 阅读 · 5 评论 -
文本分类(Text Classification ):从数据处理到模型设计需要注意的点
怎么设计一个分类模型?样本处理花一些时间,分析样本情况,预处理,看每类样本是否平衡等,花时间了解样本样本预处理样本类别不平衡两种方法:re-sampling and cost-sensitive re-weightingIn re-sampling, the numberof examples is directly adjusted by over-sampling (addingrepetitive data) for the minor class or under-sampling原创 2020-06-21 11:00:29 · 1539 阅读 · 0 评论 -
损失函数(Loss Function)在实际应用中如何合理设计
cross entropyH(p,q)=−∑xp(x)logq(x) H(p,q) = -\sum_xp(x)\log q(x)H(p,q)=−x∑p(x)logq(x)2.MSEMSE=1N∑i=1N(fi−yi)2 MSE = \frac{1}{N}\sum_{i=1}^N(f_i-y_i)^2 MSE=N1i=1∑N(fi−yi)2MAEMAE=1n∑j=1n∣yi−y^j∣ MAE=\frac{1}{n}\sum_{j=1}^n\begin{vmatrix} y_i-\h.原创 2020-06-13 17:44:16 · 5587 阅读 · 3 评论 -
Sigmoid,tanh,Relu,Leaky ReLu,ELU,GeLu 激活函数理解
为什么需要激活函数?SigmoidtanhReluLeaky ReluRectifier Nonlinearities Improve Neural Network Acoustic ModelsEluFAST AND ACCURATE DEEP NETWORK LEARNING BYEXPONENTIAL LINEAR UNITSGeluGAUSSIAN ERROR LINEAR UNITS (GELUS)参考文献添加链接描述添加链接描述......原创 2020-05-29 14:12:42 · 8688 阅读 · 1 评论 -
层次softmax (hierarchical softmax)理解
基于word2vec模型学习词的语义向量表示,已在NLP许多任务中都发挥了重要的作用,接下来对词向量学习中的hierarchical softmax的应用做一个分析和学习CBOW(Continuous Bag-of-Word)One-word context假设我们vocabulary size 为VVV,hidden layer 神经元个数为NNN,假设我们只有一个上下文单词,则根据这个上下文单词预测目标词,类似于一个bigram model,如下图所示:输入是一个one-hot编码的vecto原创 2020-05-17 17:29:29 · 8752 阅读 · 2 评论 -
数据增强技术:Easy Data Augmentation and Neural Sentence Editing
数据增强技术论文:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks增强技术方法同义词替换(synonym replacement):从句子中随机选择n个非停用词,对每一个词随机用它的同义词替换随机插入(random insertion):从句子中随机选...原创 2020-04-27 09:35:52 · 1017 阅读 · 0 评论 -
Bert RoBerta DistilBert ALBert 解读
Bert在NLP领域刷新了很多记录,以及后来一些work基本是在Bert基础上做的相关改进,接下来总结下自己最近在阅读相关论文的一些理解和笔记整理。Transformer结构论文:attention is all you needDL,我们知道,基本结构就是DNN, CNN, RNN。在CV领域,CNN结构是用的较多的,而在NLP领域,则属RNN结构,由于RNN结构的序列表征学习能力,正好是...原创 2020-04-06 16:57:47 · 1977 阅读 · 0 评论 -
测评Mimick模型对词向量重构效果
论文《Mimicking Word Embeddings using Subword RNNS》开源的代码是基于DyNet深度学习框架。不同于静态声明深度学习框架,例如:TensorFlow,Theano,CNTK等,用户需要首先定义计算图(computation graph),然后样本会被传递给执行该计算的引擎并计算其导数。而对于DyNet,计算图的构建(construction)基本是透明的...原创 2020-05-13 16:00:17 · 2300 阅读 · 3 评论