一只小菜狗:D-CSDN博客

原创 BERT系列模型总结

文章目录参考TransformerTransformer-XLBERTXLNET参考NLP预训练模型：从transformer到albertXLNet:运行机制及和Bert的异同比较从语言模型到Seq2Seq：Transformer如戏，全靠MaskTransformertransformer是这些模型的基础，具体的原理+代码的介绍可以看我的博客：Transformer 代码+原理。Transformer-XLBERTXLNETXLNet: Generalized Autoregress

2021-12-29 16:50:53 1580

原创 Transformer 代码+原理

文章目录referencereference

2021-12-18 10:35:27 2575 1

原创常用word embedding简介

文章目录参考word2vec参考Negative-Sampling Word-Embedding Methodword2vec

2021-12-16 18:06:59 1254

原创 word2vec原理+代码

文章目录参考word2vec 简单解释提速方法Hierarchical SoftmaxNegative Samplingword2vec提取关键词word2vec keras 版代码网上关于Word2vec的介绍有很多，由于在graph embedding中word2vec的广泛应用以及打算整理一版word embedding的系列内容，这里把word2vec单独拉开来讲。关于graph embedding的更多内容：graph embedding第一篇——deepwalk and linegrap

2021-12-08 16:02:08 2789 1

原创 graph embedding在大厂中的应用

文章目录参考Item2VecAirbnb EmbeddingBillion-scale Commodity Embedding for E-commerce Recommendation in Alibaba上文链接：参考graph embedding深度学习中不得不学的Graph Embedding方法Embedding从入门到专家必读的十篇论文DNN论文分享 - Item2vec从KDD 2018最佳论文看Airbnb实时搜索排序中的Embedding技巧Negative-Samplin

2021-12-07 16:39:17 601

原创苹果M1安装sklearn遇到no resource blas found问题的解决方案

记录一下遇到的坑：千万不要把x86的全部数据直接迁移到M1。不然miniconda都装不上。重装系统得到一个干净的环境，就可以简单的安装上miniconda了。create一个虚拟环境，去装包conda create -n your_env_name python=3.8.8(其他的也行)source activate your_env_nameM1系统安装scripy有问题：brew install openblasexport LDFLAGS="-L/opt/homebrew/

2021-12-03 19:03:47 1587

原创 graph embedding 第二篇 node2vec and sdne

文章目录参考前言Node2VecSDNEItem2VecAirbnb EmbeddingBillion-scale Commodity Embedding for E-commerce Recommendation in Alibaba参考graph embedding深度学习中不得不学的Graph Embedding方法Embedding从入门到专家必读的十篇论文DNN论文分享 - Item2vec从KDD 2018最佳论文看Airbnb实时搜索排序中的Embedding技巧Negative

2021-12-03 16:27:51 489

原创 graph embedding第一篇——deepwalk and line

文章目录参考DeepWalkLineNode2VecSDNEBillion-scale Commodity Embedding for E-commerce Recommendation in Alibaba[Item2Vec] Item2Vec-Neural Item Embedding for Collaborative Filtering[Airbnb Embedding] Real-time Personalization using Embeddings for Search Ranking at

2021-12-01 17:45:59 1712

原创 Induction Networks for Few-Shot Text Classification

文章目录referencereference一文入门元学习（Meta-Learning）（附代码）Induction Networks for Few-Shot Text Classification

2021-11-28 21:50:42 658 1

原创 NER中的一些编码器与解码器

文章目录编码LR-CNN解码参考本篇文章是命名实体识别（NER）算法的进一步介绍，主要内容是介绍一些编码器与解码器，作为上一篇内容的补充。编码参考自中文NER的正确打开方式: 词汇增强方法总结 (从Lattice LSTM到FLAT)。关于编码部分，我想更多的介绍一些中文编码的内容。我们知道中文都是对字进行编码的，如果能够将词汇信息加入到其中，能够提供更为丰富的信息。比如在命名实体识别（NER）算法中我们介绍了Lattice LSTM就引入了词汇的信息。Lattice LSTM中存在一些缺点：

2021-11-19 23:00:00 2074

原创命名实体识别（NER）算法

参考最通俗易懂的BILSTM-CRF的CRF层介绍简明条件随机场CRF介绍 | 附带纯Keras实现keras实现源码BERT标注为何不使用CRF

2021-11-15 22:15:00 8489

原创关键词提取——有监督方法

在上一篇博客中，介绍了关键词提取的无监督方法：点击这里查看文章。本篇主要是介绍关键词提取的有监督方法。

2021-11-01 22:30:00 2392

原创论文阅读笔记： SIFRank and BERT-KPE

文章目录SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language ModelMODEL OVERVIEWSENTENCE EMBEDDING MODEL（SIF）POSITION-BIASED WEIGHT FOR LONG DOCUMENTSCapturing Global Informativeness in Open Domain Keyphrase ExtractionMet

2021-10-28 18:43:25 2743

原创结巴分词原理

文章目录结巴分词简介分词基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图构造前缀词典构造有向无环图动态规划查找最大概率路径, 找出基于词频的最大切分组合HMM识别未登陆词关键词提取TF-IDFTextRank词性标注参考在我的上一篇博客概率图模型中，有介绍一些常见的概率图模型。而在日常工作中，结巴分词也是常用的中文分词包，且其中使用了HMM模型，结合概率图模型中的理论知识，可以帮助我们进一步了解HMM算法（当然不仅限于此）。结巴分词简介首先，我们通过readme看看结巴

2021-10-27 19:33:04 1224

原创概率图模型

如何根据一些已经观察到的数据（如训练样本）观测出感兴趣的未知变量（如类别）。概率图模型（probabilistic graphical model）是一类能够用图来表达变量相关关系的概率模型。可分为两类：使用有向无环图表示变量之间的依赖关系，称为有向图模型或者贝叶斯网（Bayesian network）使用无向图表示变量之间的相关关系，称为无向图模型或马尔可夫网（Markov network）EM（Expectation-maximization）算法EM算法的目的是解决变量中存在“隐变量”（

2021-10-26 21:45:00 407

原创 LDA简要介绍

前情提要这里只列出与之有关的数学公式，并不做具体的推导与其背后的数学故事。如果感兴趣的朋友可以看看LDA数学八卦，里面有完整的故事背景和数学证明。gamma函数：其数学形式为：如果对其做分部积分，我们有如下性质：易知：Dirichlet分布：其数学形式如下：对于给定的p⃗\vec pp和NNN，定义多项分布为：而上述这两个分布是共轭关系。Dirichlet 分布的一个性质：上面的内容不懂也没有关系，只需要在用到的时候过来查阅便好，这里列出只是方便查阅。吉布斯采样：这

2021-10-21 16:50:35 598

原创 MCMC和Gibbs Sampling

很多常见的概率分布，都可以用Uniform(0,1)Uniform(0, 1)Uniform(0,1)的样本生成，比如正态分布：但是，如果某个分布过于复杂，样本的生成就很困难了。于是我们需要更加复杂的随机模拟方法生成样本。MCMC采样和gibbs sampling就是常用的一种。介绍这两个算法前，需要有一些马氏链的基本知识。马尔科夫链马尔可夫链又称离散时间马尔可夫链，为状态空间中经过从一个状态到另一个状态转换的随机过程。该过程要求具有“无记忆”的性质：下一个状态的概率分布只能由当前状态来决定，在时

2021-10-21 14:01:06 369

原创最优化方法小结

线性搜索方法梯度下降牛顿法置信域方法启发式算法

2021-10-19 15:13:25 677

原创启发式算法

本篇主要介绍一些启发式算法，包括粒子群算法，模拟退火算法，遗传算法。这些启发式的算法也是解决最优化问题的途径之一。粒子群算法(PSO)粒子群算法的思想是，粒子群算法是通过模拟鸟群捕食行为设计的一种群智能算法。区域内有大大小小不同的食物源，鸟群的任务是找到最大的食物源（全局最优解），鸟群的任务是找到这个食物源。鸟群在整个搜寻的过程中，通过相互传递各自位置的信息，让其他的鸟知道食物源的位置最终，整个鸟群都能聚集在食物源周围，即我们所说的找到了最优解，问题收敛。假设pbestp_{best}pbest是当

2021-10-18 16:04:48 1345

原创 svm手写推导

2021-10-14 00:29:36 100

原创线性回归，岭回归，LASSO回归与逻辑回归

线性回归线性回归，顾名思义，是使用属性之间的线性组合以预测输出，引入常量项x0=1x_0=1x0=1 后，其数学公式如下：y=∑i=0Nwixiy = \sum_{i=0}^N w_i x_iy=i=0∑Nwixi一般来说，我们使用均方误差作为其损失函数，其数学公式如下：L=∑k=1(w⃗xk−yk)2L=\sum_{k=1} (\vec w x_k-y_k)^2L=k=1∑(wxk−yk)2那我们的...

2021-10-12 10:59:14 3543

原创深度学习中常见的优化器小结

优化器的挑战局部最优如以下函数f(x)=cos(πx)f(x)=cos(\pi x)f(x)=cos(πx)当一个优化问题的数值解在局部最优解附近时，由于目标函数有关解的梯度接近或变成零，最终迭代求得的数值解可能只令目标函数局部最小化而非全局最小化。鞍点梯度接近0可能是在局部最优解，但也有可能在鞍点附近。比如：与局部最小不同，如果我们能往“正确”的方向前进一步，那么有可能逃离鞍点。幸运的是，我们有方法去判断这个点是局部最优还是在鞍点。J(θ)=J(θ0)+(θ−θ0)∇θJ(θ0)+12(

2021-10-07 21:26:43 776

原创聊聊深度学习中的BN和LN

在一个深度神经网络中，每一层的神经网络参数发生变化会影响其上层的输入数据分布，又因为DP的网络深度较大，这样层层叠加，导致高层的输入分布变化较大，使得高层的参数需要不断的去适应底层的参数更新。导致神经网络难以训练。这听起来很糟糕，那么有什么方案去解决这个问题呢？我们可以为每一层都设立不同的学习率、不同的初始化策略等，去解决这个问题。但是这样的解决方案非常麻烦，而且需要很多人为的经验。而Normalization能够较好的解决该问题，且不需要为每一层单独设置学习率等。什么是Normalization上

2021-10-01 16:07:39 1397

原创常见的激活函数

常用激活函数列表nameplotequationsigmoidf(x)=11+e−xf(x) = \frac{1}{1+e^{-x}}f(x)=1+e−x1Tanhf(x)=tanh(x)=21+e−2x=2sigmoid(2x)−1f(x)=tanh(x)=\frac{2}{1+e^{-2x}} \\ = 2sigmoid(2x)-1f(x)=tanh(x)=1+e−2x2=2sigmoid(2x)−1ReLUf(x)=max(0,x)f(x)=max(

2021-09-28 22:15:59 847

原创小识神经网络的初始化

初始化的原因对于一个神经网络而言，我们自然希望它是鲁棒的。也就是说，对于任何一个初始化的点，我们都能得到比较好的收敛结果。不幸的是，几乎所有的网络都是非凸的，不同的初始化得到的结果可能大相径庭。而且，如果权重初始化的方差过大或过小，可能会导致梯度爆炸或梯度弥散的问题，从而无法收敛。因此，合适的权重初始化就尤为重要。目前存在以下几种初始化策略：Constant InitializationXavier InitializationKaiming InitializationConstant

2021-09-28 15:26:49 871

init__的博客