知了不知蝉鸣惊-CSDN博客

原创（一）paddle1.8 静态图基础知识

文章目录一. 静态图基础概念二. 静态图基本概念详解1. Variable变量2. Tensor 和 LodTensor3. Program其他：4. Executor运行器1. 初始化2. 方法一. 静态图基础概念Paddle静态图中有以下几个基本的概念，包括：Variable变量：包括网络中可学习参数、占位符和常量Variable等。Variable的值可以是int32、float64等多种任何的类型。Tensor数据和LoDTensor数据：Tensor和LoDTensor

2020-12-07 17:24:52 2023 2

原创 lasagne 中遇到TypeError: init() got an unexpected keyword argument 'only_return_final'

lasagne 1.0 和 lasagne 2.0版本差别出现的问题。lasagne 2.0 中的 lasagne.layer 接口才有参数 only_return_final解决方法：pip uninstall lasagnepip install --upgrade https://github.com/Lasagne/Lasagne/archive/master.zip 具体...

2019-12-08 15:33:29 511 1

原创 FastText中文词向量的使用

faxttext中文词向量下载地址调用方法官方文档from gensim.models.keyedvectors import FastTextKeyedVectorswv = FastTextKeyedVectors.load("data/fasttext/cc.zh.ftv")wv.get_vector("齐次方程的通解")Out[4]: array([-0.02770528...

2019-11-05 20:59:08 3947 1

转载负采样算法

负采样算法CBOW中，判断上下文词（context）与目标词（target）是否为匹配的一对，如果是一对，则是正样本，如果不是一对，则是负样本.去一段长度为1的线段，分为|V|份，每份的长度按词频的不同而有所不同。且长度的计算采用了一种“平滑”策略，能够让低频词多一些出场机会，高频词贡献一些出场机会。在采样前，我们将这段长度为1的线段划分成M等份，这里M>>V。这样只需产生0，...

2019-04-28 11:53:08 3664

原创梯度弥散和梯度爆炸

1. 什么是梯度弥散和梯度爆炸（发生原因）梯度弥散：由于导数的链式法则，连续多层小于1的梯度相乘会使梯度越来越小，最终导致某层梯度为0。梯度爆炸：由于导数的链式法则，连续多层大于1的梯度相乘会使梯度越来越大，最终导致梯度太大的问题。2. 梯度弥散和梯度爆炸会造成什么影响梯度弥散会使得网络前几层的参数不再更新，最终导致模型的性能很差梯度爆炸会使得某层的参数w过大，造成网络不稳定，...

2019-03-25 17:51:38 3995 1

原创 BN算法批量归一化算法

1. BN算法的过程2015年的论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》思想：给每层神经网络的输出做一个归一化，归一化过程的参数由网络训练产生。2. BN算法的好处可以增加训练速度，防止过拟合：如果没有归一化，每一层训练后的数据分布都不...

2019-03-25 17:34:42 816

原创激活函数知识点汇总

https://blog.csdn.net/u011684265/article/details/78039280relu 函数relu（x） = max ( x, 0 )为什么使用relu？第一，采用sigmoid等函数，算激活函数时候（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相当大，而采用Relu激活函数，整个过程的计算量节省很多。第二，对于深层网络，...

2019-03-25 17:05:28 841 1

原创 KNN K近邻算法

简述K近邻算法：寻找数据集中k个离输入样本x最近的数据点，根据k个数据点投票表决x的类别。三要素k 的选取距离度量决策判决规则k 的选取对结果的影响较小的k意味着只有较近的点才会对预测产生影响，会减少近似误差，增加估计误差，但容易发生过拟合。k较大，可以再一定范围内减少学习的估计误差但是会增加学习的近似误差。knn最大的缺点是当数据不平衡时，样本的k个邻居中大样本容量类占...

2019-03-18 21:37:28 234

原创 LSTM GRU CNN Seq2seq知识点概要

文章目录1. RNN 循环神经网络rnn的优点和缺点rnn cell示意图及 rnn2. LSTM 长短时记忆网络画图和公式RNN与LSTM3. GRU网络3.1 公式3.2 GRU网络和LSTM网络的比较4. CNN网络知识权重参数个数：卷积后隐藏层的size：卷积feature map不变的配置：padding的same和valid：池化层的作用卷积的特点/为何用卷积/卷积神经网络的特点卷积...

2019-03-15 15:31:22 937

原创过拟合产生原因和解决

通常过拟合由以下三种原因产生：假设过于复杂：注意奥卡姆剃刀原则数据存在很多噪音：数据规模太小：过拟合的解决方法通常有：early stopping：采用交叉验证，设置一个k值，当连续k轮验证集上的指标都不上升时，停止训练数据集扩增：从数据源头采集更多数据；数据增强：复制原有的数据并加上随机噪声。图像可以旋转，改变尺寸等；重复采样；根据当前估计数据分布参数，使用该分...

2019-03-15 14:51:02 1192

原创 L1正则化和L2正则化

文章目录1. L1正则化和L2正则化：2. L1正则化和L2正则化的作用:3. 一些问题理解L1正则化的稀疏作用如何理解？L2正则化为什么不会稀疏？L2正则化为何可以防止过拟合？L1正则化在哪种情况下可以防止过拟合？1. L1正则化和L2正则化：L1正则化,又称Lasso Regression，是指权值向量w中各个元素的绝对值之和L2正则化，又称Ridge Regression，是指权值...

2019-03-15 14:31:35 2275

原创 textrank 算法

jieba 关键词提取

2019-03-11 19:36:26 1667

原创迹技巧

迹是矩阵的主对角线元素之和。性质1 tra=a,tr(aA)=a∗trAtr a = a, tr (aA) = a *tr Atra=a,tr(aA)=a∗trA ，a为标量；常用于求解凸优化问题中，一般对实值函数取迹，起到计算简单的作用。性质2 tr(A+B)=trA+trBtr (A+B) = trA + trBtr(A+B)=trA+trB性质3 trAB=trBA,tr...

2019-03-11 14:32:54 1424

原创 Sentence2Vec理解

论文原文：A simple but tough-to-beat baseline for sentence embedding算法介绍先对一个句子vsv_svs中所有词的词向量进行加权平均，其中每个词向量的权重可以表示为aa+p(wi)\frac{a}{a+p(w_i)}a+p(wi)a，其中a为超参数，p(w)为词w的频率，∣s∣|s|∣s∣为句长, vwiv_{w_i}vwi...

2019-03-09 12:34:22 3696

原创 K-means 算法 Kmeans++ 二分Kmeans

1. 算法原理kmeans的计算方法如下：随机选取k个中心点遍历所有数据，将每个数据划分到最近的中心点中计算每个聚类的平均值，并作为新的中心点重复 2-3 ，直到这k个中线点不再变化（收敛了），或执行了足够多的迭代或最小化平方误差。2. 最小化平方误差法3. kmeans的优缺点4. 代码...

2019-03-09 11:14:17 2029

原创朴素贝叶斯算法（NB）概率图模型（1）

概率图模型分为贝叶斯网络（Bayesian Network）和马尔可夫网络（MarkovNetwork）两大类。贝叶斯网络可以用一个有向图结构表示，如朴素贝叶斯模型、隐马尔可夫模型、主题模型。马尔可夫网络可以表示成一个无向图的网络结构，如最大熵模型、条件随机场。朴素贝叶斯网络的图表示概率图中，每个节点的概率可以表示为: P(当前节点|它的父节点) ，写出联合概率分布：如图中所示：...

2019-03-07 20:00:58 3468

原创判别模型和生成模型总结

区别判别模型：在有限样本的条件下建立判别函数，也就是最优分类面，实现分类（估计条件概率分布P（y|x））。判别模型：建立样本的联合概率，再利用模型进行推理预测，要求样本尽可能大（估计联合概率分布P（x，y））。常见模型判别模型：最大熵模型（ME），条件随机场（CRF），最大熵马尔可夫（MEMM），SVM生成模型：朴素贝叶斯（NB），隐马尔可夫模型（HMM），LDA主题模型，高斯混合模型...

2019-03-07 10:42:01 600

原创 PCA 主成分分析 KPCA

主成分分析 PCA1. 结论1. 向量的投影表示：向量 x 在单位向量 e 上的投影长度值 eTxe^{T }xeTx，投影向量可以表示 eTxee^T x eeTxe 。所以求向量 a 在另一个向量 b 的投影值可以先求向量 b 的单位向量。(画图列出cos公式，求单位向量公式可理解)2. PCA算法推导思想PCA算法将寻找数据里最主要的方面来代替原始数据，从而实现降维。具体地，就是...

2018-11-24 17:34:51 2840

原创信息论复习笔记（1）：信息熵、条件熵，联合熵，互信息、交叉熵，相对熵

1.1 信息和信息的测量1.1.1 什么是信息信息是对接收者来说是一种不确切的知识，可以认为是一种不确定性的度量。比如下面的例子，假设随机变量 X= ‘出生年份’：1) I will be one year older next year. ----&amp;gt; No information2) I was born in 1993. ----&amp;gt; little informa...

2018-11-23 14:28:14 2329

原创 pycharm使用jupyter notebook时提示“ERROR：the notebook sever could not be stated because no avaliable port”

这是由于8888端口号被占用了可以打开终端，输入：lsof -i tcp:8888 查询PID,比如PID是32420然后再kill 32420，这样解除了8888端口的占用重新打开即可。

2018-08-24 17:40:09 4197

原创 tensorflow基础知识(六) tensor变量 tf.Variable与tf.get_variable和tf.variable_scope

tensorflow中的变量1 tf.Variable与tf.get_variable创建变量2 tf.variable_scope()与tf.get_variable的配合使用3 使用tf.get_variable的好处tensorflow中的变量1 tf.Variable与tf.get_variable创建变量tf.Variable...

2018-08-13 22:25:02 1002

原创 tf.get_variable 中变量初始化函数和Xavier初始化器

当使用 tf.get_variable(name, shape=None, initializer=None)来定义变量时，可以利用变量初始化函数来实现对 initializer 的赋值。在神经网络中，最常权重赋值方式是正态随机赋值和 Xavier赋值。1. 变量初始化函数tf.random_normal_initializer(shape,mean=0.0,stddev...

2018-08-13 19:45:18 6808 2

原创 tensroflow基础知识(五) tensor常量生成

tensorflow中的tensor常量1. 随机常量1.1 正态分布1.2 均匀分布1.3 洗牌2. 常数常量3. 全0、全1常量3.1 生成与tensor相同shape的全0，全1 tensor矩阵3.2 全0，全1 的tensor 矩阵tensorflow中的tensor常量常量在深度学习中，经常用于变量Variable的初始化...

2018-08-13 15:58:13 1174

原创 tensorflow基础知识(四) Sesstion会话

1. 会话(Session)的作用2. 会话的生成方式2.1 使用 tf.sesstion() 函数生成法2.2 使用上下问管理器2.3 使用默认会话2.4 使用交互式会话3. tf.InteractiveSession()与tf.Session()的区别在tensorflowbian编程思想中，我们说到每个计算图都必须要在一个会话Ses...

2018-08-11 15:41:41 991

原创 linux 环境变量的设置临时环境变量与长期环境变量

1. 创建临时环境变量1.1 关于环境变量的一些命令2. 创建长期的环境变量实例1. 创建临时环境变量1.1 关于环境变量的一些命令新建临时环境变量export AA="hello world"注：这里相当于window下的set命令, $ 相当于 win中的 %% ，Linux用’：’而win用’；’，下面类似。清空一个环境变量值 ...

2018-08-09 20:17:36 16875

原创 SVM系列理论（十一）SMO序列最优化算法

1. SMO 序列最小化算法的基本思想2. 选择两个变量的方法2.1 第一个变量的选择2.2 第二个变量的选择3. SMO序列最小化算法的基本步骤支持向量机的的学习问题可以形式化为求解凸二次规划问题。求解凸二次规划问题可以借用一些凸二次规划求解工具，但这需要强大的计算能力支持。Platt提出SMO序列最小优化算法，可以高效地计算出对偶问题中最佳的拉格朗日乘子...

2018-08-09 16:54:26 873

原创 SVM系列理论（十） SVR支持向量回归

前面提到，对于回归问题，核岭回归，即最小二乘SVM（LSSVM），ββ \beta的值大部分不为0，其支持向量非常多，也就是稠密的，而并不像soft-SVM中的αα \alpha一样，大部分αα \alpha`为0. 支持向量回归（SVR）模型可以解决这个问题。1 敏感度损失函数为了得到，岭回归得到的是稠密的ββ \beta，本质上是其采用了最小二乘损失，为了得到稀疏的支持向量回归...

2018-08-08 11:13:48 8653

原创 SVM支持向量机系列理论（九）核岭回归

1. 岭回归问题岭回归就是使用了L2正则化的线性回归模型。当碰到数据有多重共线性时（自变良量存在高相关性），我们就会用到岭回归。岭回归模型的优化策略为：minw&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;1N∑i(yi−w⋅zi)2+λNwTw&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&a

2018-08-05 15:07:48 6036

原创 SVM支持向量机系列理论(八) 核逻辑回归

1. Representer Theorykernel 逻辑回归就是使用Representer Theory在L2正则的逻辑回归模型中应用核技巧。

2018-08-03 22:09:18 1409

原创 SVM支持向量机系列理论（七）线性支持向量机与L2正则化 Platt模型

7.1 软间隔SVM等价于最小化L2正则的合页损失上一篇说到，ξiξi \xi_i 表示偏离边界的度量，若样本点(xi,yi)(xi,yi)(x_i,y_i) 满足约束时，则 ξi=0ξi=0 \xi_i =0，当不满足约束时，ξi=1−yi(w⋅xi+b)ξi=1−yi(w⋅xi+b) \xi_i =1 - y_i(w \cdot x_i + b),表示偏离margin的度量。...

2018-08-03 21:21:10 1981

原创 SVM支持向量机系列理论（四）软间隔支持向量机

4.1 软间隔SVM的经典问题4.2 软间隔SVM的对偶问题4.2.1 软间隔SVM的对偶问题学习算法4.3 软间隔SVM的支持向量4.4 SVM原始最优化问题等价于最小化合页损失函数4.1 软间隔SVM的经典问题对于线性可分的数据集，可以使用线性可分支持向量机的方法，找出最优间隔的分离超平面。线性可分支持向量机的经典问题为：min&amp;amp;nbsp;w...

2018-08-03 17:20:41 1773

原创 SVM支持向量机系列理论（六） SVM过拟合的原因和SVM模型选择

6.1 SVM 过拟合的原因实际我们应用的SVM模型都是核函数+软间隔的支持向量机，那么，有以下原因导致SVM过拟合：选择的核函数过于powerful，比如多项式核中的Q设置的次数过高要求的间隔过大，即在软间隔支持向量机中C的参数过大时，表示比较重视间隔，坚持要数据完全分离，当C趋于无穷大时，相当于硬间隔SVM6.2 如何选择SVM模型采用不同核函数，会有不同的参数数量，那么...

2018-08-03 17:12:28 6799

原创 SVM支持向量机系列理论（五）SVM中几种核函数的对比

核函数可以代表输入特征之间特殊的相似性。5.1 线性核形式：K(x,x′)=xTx′K(x,x′)=xTx′K(x, x') = x^T x ' 优点：方案首选，奥卡姆剃刀定律简单，可以求解较快一个QP问题可解释性强：可以轻易知道哪些feature是重要的，限制：只能解决线性可分问题5.2 多项式核形式：K(x,x′)=(a+r&amp;amp;nbsp;xTx′)Q&amp;amp;...

2018-08-03 17:04:15 8010

原创 SVM支持向量机系列理论（三）非线性支持向量机与核函数技巧

3.1 核技巧解决非线性SVM3.1.1 非线性SVM解决思路3.1.2 核技巧下SVM3.2 Mercer核例题判断 (−1+xTx′)(−1+xTx′)(-1 + x^Tx') 是不是核函数？3.3 常用的核函数3.3.1 二次多项式核3.3.2 高斯核3.1 核技巧解决非线性SVM3.1.1 非线性SVM解决思路...

2018-08-03 16:59:38 7906

原创 SVM支持向量机系列理论（二）线性可分SVM模型的对偶问题

2.3 对偶问题2.3.1 原始问题的转换a. 转换形式SVM算法的经典问题是一个凸二次规划模型，求解这个问题比较复杂。min&amp;amp;amp;amp;nbsp;w,b&amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;nbsp;12||w||2min&amp;amp;amp;amp;nbsp;w,b&amp;amp;amp;amp;nbsp;&amp

2018-07-29 18:38:38 2000

原创 SVM支持向量机系列理论（一）线性可分SVM与硬间隔最大化

2 线性可分SVM与硬间隔最大化硬间隔最大化指的是当数据完全可分时，支持向量和分离超平面之间的间隔最大化。2.1 SVM思想对一个线性可分的二分类数据集：D=(xi,yi),i=1&amp;amp;amp;amp;amp;amp;nbsp;,...&amp;amp;amp;amp;amp;amp;nbsp;,ND=(xi,yi),i=1&amp;amp;amp;amp;amp;amp;nbsp;,...&amp;amp;am

2018-07-27 17:29:09 1429

原创凸优化问题，凸二次规划问题QP，凸函数

约束优化问题凸函数凸优化问题凸二次规划问题约束优化问题min&nbsp;w&nbsp;&nbsp;f(w)min&nbsp;w&nbsp;&nbsp;f(w)min_{ \ w} \ \ f(w)s.t.&nbsp;&nbsp;&nbsp;gi(w)≤0&nbsp;&nbsp;&a

2018-07-27 17:25:41 48268 15

原创 tensorflow中的数据类型dtype

Tensorflow中，主要有以下几种数据类型（dtype），在旧版本中，不用加tf也能使用。有符号整型tf.int8：8位整数。tf.int16：16位整数。tf.int32：32位整数。tf.int64：64位整数。无符号整型tf.uint8：8位无符号整数。tf.uint16：16位无符号整数。浮点型tf.float16：16位浮点数。...

2018-06-25 20:25:41 18553

原创 tenorflow基础知识（三） tensor张量、tensor的属性、tensor数据和numpy数据的转化

[]1. 什么是tensor张量，tensor的结构tensor是tensorflow中的数据形式。是一种可以表示多维数组的class类，可以理解为多维数组。在tensor类中包含以下几个属性：name属性：name是一个Tensor的唯一标识符. 如果我们没有指定name的值，则tensorflow会按操作名自动分配name值，比如用a = tf.contstant(1.0)...

2018-06-25 20:19:21 5167

原创 tensorflow基础知识(二) Graph计算图的创建和使用

tensorflow中Graph图1 只创建一个Graph图2 定义多个Graph图3 指定Graph计算图运行的设备tensorflow中Graph图1 只创建一个Graph图在Tensorflow中，始终存在一个默认的Graph，当你创建Operation、Tensor时，tensorflow会将你这些节点和边自动添加到这个默认Graph中...

2018-06-24 16:24:51 7394

问答数据集

《Information Theory and Network Coding》

合泰66f50参考程序

空空如也