promisejia

倥侗岁月,上下求索

负采样算法

负采样算法 CBOW中,判断上下文词(context)与目标词(target)是否为匹配的一对,如果是一对,则是正样本,如果不是一对,则是负样本. 去一段长度为1的线段,分为|V|份,每份的长度按词频的不同而有所不同。且长度的计算采用了一种“平滑”策略,能够让低频词多一些出场机会,高频词贡献一些出...

2019-04-28 11:53:08

阅读数 136

评论数 0

梯度弥散和梯度爆炸

1. 什么是梯度弥散和梯度爆炸(发生原因) 梯度弥散:由于导数的链式法则,连续多层小于1的梯度相乘会使梯度越来越小,最终导致某层梯度为0。 梯度爆炸:由于导数的链式法则,连续多层大于1的梯度相乘会使梯度越来越大,最终导致梯度太大的问题。 2. 梯度弥散和梯度爆炸会造成什么影响 ...

2019-03-25 17:51:38

阅读数 65

评论数 0

BN算法 批量归一化算法

1. BN算法的过程 2015年的论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》 思想:给每层神经网络的输出做一个归一化,归一化过程的参数由网络训练产生...

2019-03-25 17:34:42

阅读数 44

评论数 0

激活函数知识点汇总

https://blog.csdn.net/u011684265/article/details/78039280 relu 函数 relu(x) = max ( x, 0 ) 为什么使用relu? 第一,采用sigmoid等函数,算激活函数时候(指数运算),计算量大,反向传播求误...

2019-03-25 17:05:28

阅读数 44

评论数 1

KNN K近邻算法

简述K近邻算法: 寻找数据集中k个离输入样本x最近的数据点,根据k个数据点投票表决x的类别。 三要素 k 的选取 距离度量 决策判决规则 k 的 选取对结果的影响 较小的k意味着只有较近的点才会对预测产生影响,会减少近似误差,增加估计误差,但容易发生过拟合。 k较大,可...

2019-03-18 21:37:28

阅读数 30

评论数 0

LSTM GRU CNN Seq2seq知识点概要

文章目录1. RNN 循环神经网络rnn的优点和缺点rnn cell示意图 及 rnn2. LSTM 长短时记忆网络画图和公式RNN与LSTM3. GRU网络3.1 公式3.2 GRU网络和LSTM网络的比较4. CNN网络知识权重参数个数:卷积后隐藏层的size:卷积feature map不变的...

2019-03-15 15:31:22

阅读数 69

评论数 0

过拟合产生原因和解决

通常过拟合由以下三种原因产生: 假设过于复杂:注意奥卡姆剃刀原则 数据存在很多噪音: 数据规模太小: 过拟合的解决方法通常有: early stopping:采用交叉验证,设置一个k值,当连续k轮验证集上的指标都不上升时,停止训练 数据集扩增: 从数据源头...

2019-03-15 14:51:02

阅读数 56

评论数 0

L1正则化和L2正则化

文章目录1. L1正则化和L2正则化:2. L1正则化和L2正则化的作用:3. 一些问题理解L1正则化的稀疏作用如何理解?L2正则化为什么不会稀疏?L2正则化为何可以防止过拟合?L1正则化在哪种情况下可以防止过拟合? 1. L1正则化和L2正则化: L1正则化,又称Lasso Regressi...

2019-03-15 14:31:35

阅读数 149

评论数 0

textrank 算法

jieba 关键词提取

2019-03-11 19:36:26

阅读数 70

评论数 0

迹技巧

迹是矩阵的主对角线元素之和。 性质1 tra=a,tr(aA)=a∗trAtr a = a, tr (aA) = a *tr Atra=a,tr(aA)=a∗trA ,a为标量; 常用于 求解凸优化问题中,一般对实值函数取迹,起到计算简单的作用。 性质2 tr(A+B)=trA+tr...

2019-03-11 14:32:54

阅读数 40

评论数 0

Sentence2Vec理解

论文原文:A simple but tough-to-beat baseline for sentence embedding 算法介绍 先对一个句子vsv_svs​中所有词的词向量进行加权平均,其中每个词向量的权重可以表示为aa+p(wi)\frac{a}{a+p(w_i)}a+p(...

2019-03-09 12:34:22

阅读数 195

评论数 0

K-means 算法 Kmeans++ 二分Kmeans

1. 算法原理 kmeans的计算方法如下: 随机选取k个中心点 遍历所有数据,将每个数据划分到最近的中心点中 计算每个聚类的平均值,并作为新的中心点 重复 2-3 ,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代或 最小化平方误差。 ...

2019-03-09 11:14:17

阅读数 33

评论数 0

朴素贝叶斯算法(NB) 概率图模型(1)

概率图模型分为贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network)两大类。 贝叶斯网络可以用一个有向图结构表示,如 朴素贝叶斯模型、隐马尔可夫模型、主题模型。 马尔可夫网络可以表示成一个无向图的网络结构,如 最大熵模型、条件随机场。 朴素贝叶斯网络的...

2019-03-07 20:00:58

阅读数 160

评论数 0

判别模型和生成模型总结

区别 判别模型:在有限样本的条件下建立判别函数,也就是最优分类面,实现分类(估计条件概率分布P(y|x))。 判别模型:建立样本的联合概率,再利用模型进行推理预测,要求样本尽可能大(估计联合概率分布P(x,y))。 常见模型 判别模型:最大熵模型(ME),条件随机场(CRF),最大熵马尔可...

2019-03-07 10:42:01

阅读数 40

评论数 0

PCA 主成分分析 KPCA

主成分分析 PCA 1. 结论1. 向量的投影表示: 向量 x 在单位向量 e 上的投影长度值 eTxe^{T }xeTx,投影向量可以表示 eTxee^T x eeTxe 。 所以求向量 a 在另一个向量 b 的投影值可以先求向量 b 的单位向量。(画图列出cos公式,求单位向量公式可理...

2018-11-24 17:34:51

阅读数 802

评论数 0

信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵

1.1 信息和信息的测量 1.1.1 什么是信息 信息是对接收者来说是一种不确切的知识,可以认为是一种不确定性的度量。比如下面的例子,假设随机变量 X= ‘出生年份’: 1) I will be one year older next year. ----&amp...

2018-11-23 14:28:14

阅读数 59

评论数 0

pycharm使用jupyter notebook时提示“ERROR:the notebook sever could not be stated because no avaliable port”

这是由于8888端口号被占用了 可以打开终端,输入: lsof -i tcp:8888 查询PID,比如PID是32420 然后再kill 32420,这样解除了8888端口的占用 重新打开即可。

2018-08-24 17:40:09

阅读数 671

评论数 0

tensorflow基础知识(六) tensor变量 tf.Variable与tf.get_variable和tf.variable_scope

tensorflow中的变量 1 tf.Variable与tf.get_variable创建变量 2 tf.variable_scope()与tf.get_variable的配合使用 3 使用tf.get_variable的好处 tensorflow中的变...

2018-08-13 22:25:02

阅读数 166

评论数 0

tf.get_variable 中变量初始化函数和Xavier初始化器

当使用 tf.get_variable(name, shape=None, initializer=None) 来定义变量时,可以利用变量初始化函数来实现对 initializer 的赋值。 在神经网络中,最常权重赋值方式是 正态随机赋值 和 Xavier赋值。 1. 变量初始化函数 ...

2018-08-13 19:45:18

阅读数 1758

评论数 0

tensroflow基础知识(五) tensor常量生成

tensorflow中的tensor常量 1. 随机常量 1.1 正态分布 1.2 均匀分布 1.3 洗牌 2. 常数常量 3. 全0、全1常量 3.1 生成与tensor相同shape的全0,全1 tensor矩阵 3.2 全0,全1 的tensor 矩阵 ...

2018-08-13 15:58:13

阅读数 144

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭