Rookiekk-CSDN博客

转载神经网络优化：指数衰减计算平均值(滑动平均)

Polyak平均会平均优化算法在参数空间访问中的几个点。如果t次迭代梯度下降访问了点,那么Polyak平均算法的输出是。当应用Polyak平均于非凸问题时，通常会使用指数衰减计算平均值： 1. 用滑动平均估计局部均值　　滑动平均(exponential moving average)，或者叫做指数加权平均(ex...

2018-10-11 15:19:20 8460

原创神经网络优化：病态矩阵与条件数

一、病态矩阵求解方程组时如果对数据进行较小的扰动，则得出的结果具有很大波动，这样的矩阵称为病态矩阵。病态矩阵是一种特殊矩阵。指条件数很大的非奇异矩阵。病态矩阵的逆和以其为系数矩阵的方程组的界对微小扰动十分敏感，对数值求解会带来很大困难。例如：现在有线性方程组： Ax = b，解方程 ...

2018-10-09 11:57:02 10237 10

原创优化算法：牛顿法（Newton法）

学习深度学习时遇到二阶优化算法牛顿法，查阅了相关书籍进行记录。：函数的梯度向量:函数的Hessian矩阵，其第i行第j列的元素为.假设是二阶连续可微函数，。最速下降法因为迭代路线呈锯齿形，固收敛速度慢，仅是线性的。最速下降法本质使用线性函数去近似目标函数。要得到快速的算法，需要考虑对目标函数的高阶逼近。Newton法就是通过二次模型近似目标函数得到的。一、Newton法理论 ...

2018-10-08 19:34:44 15442 2

原创深度学习maxout单元

今天学习深度学习看到整流线性单元及其扩展里的maxout单元，感觉这个有点东西，书中讲的不是特别详细，在此记录一下学习到的东西。参考了http://www.cnblogs.com/tornadomeet 一、相关理论 maxout出现在ICML2013上:《Maxout Networks》,作者Goodfellow将maxout和dropout结合后，号称在MNIST, C...

2018-10-03 16:19:57 3124

转载基于深度学习的Person Re-ID（综述）

转载。 https://blog.csdn.net/linolzhang/article/details/71075756一. 问题的提出 Person Re-ID 全称是 Person Re-Identification，又称为行人重检测 or 行人再识别，直观上可以通过两种思路进行比对，一种是通过静态图像（still-image）进行特征比对，另一种是通过视频的时序...

2018-09-26 10:24:55 534

原创机器学习:常用的矩阵向量求导公式

学习机器学习的时候有很多线性代数的知识，其中有一些矩阵向量求导的东西不是很熟悉，今天查了很久决定做一个总结。定义1.梯度（Gradient） [标量对列向量微分]设是一个变量为的标量函数，其中。那么定义对的梯度为:定义2. 海森矩阵（Hessian matrix）[海森矩阵是二阶梯度]设是一个变量为的二阶可微分的标量函数，其中。那么定义对的海森矩阵为:海森矩...

2018-09-23 11:06:58 4862 1

原创 python 读取数据出现UnicodeDecodeError：: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin

之前写程序时也出现过类似错误，每次解决了到第二次遇见又忘了具体方法，这次记录一下。一、字符编码问题先介绍一下字符编码问题1.ASCLL与GB2312由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。但是要处理中文显然一个字节是不够的，至...

2018-09-11 19:43:39 325998 37

原创《将博客搬至CSDN》

从今天起将博客搬至CSDN,Never too old to learn.

2018-09-11 14:19:00 107

原创《机器学习》周志华学习笔记第十四章概率图模型（课后习题）python实现

一、基本内容1.隐马尔可夫模型1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R,生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O)，给定一组观测变量值，推断就是要由P(Y,R,O)或者P(Y,R|O)得到条件概率分布P(Y,O).1.2. 概率图模型大致分为两类：第一类是使用有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯...

2018-09-07 09:54:00 1120

原创《机器学习》周志华学习笔记第八章集成学习（课后习题）python实现

1.个体与集成1.1同质集成1.2异质集成2.boosting:代表AdaBoost算法3.Bagging与随机森林3.1Bagging 是并行式集成学习方法最著名的代表（基于自主采样法bootstrap sampling）自己学习时编写了一些代码，参考了一些书上的资料，理论上问题不大，代码上面还是有点问题。习题以后补上https://github.com/mak...

2018-09-02 17:18:00 869

原创《机器学习》周志华学习笔记第六章支持向量机（课后习题）python 实现

一、1.间隔与支持向量2.对偶问题3.核函数xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果。核矩阵K总是半正定的。4.软间隔与正则化软间隔允许某些samples不满足约束松弛变量5.支持向量回归（SVR）6.核方法（引入核函数）自己学习时写了代码，其中书中提到的SVM的经典的优化算法SMO我找到了论文并进行了...

2018-09-02 17:14:00 836

原创《机器学习》周志华学习笔记第五章神经网络（课后习题） python实现

1.神经元模型2.感知机与多层网络3.误差逆传播算法(A)BP算法：最小化训练集D上的累积误差标准BP算法：更新规则基于单个Ek推导而得两种策略防止过拟合：（1）早停（通过验证集来判断，训练集误差降低，验证集误差升高）（2）正则化：在误差目标函数中引入描述网络复杂度的部分4.全局最小与局部最小跳出局部最小的方法：（1）不多参数初始化多个神经网络。去误差最小的解做为最终...

2018-09-02 17:11:00 613

原创《机器学习》周志华学习笔记第七章贝叶斯分类器（课后习题）python 实现

2018-09-02 17:03:00 1541

原创《机器学习》周志华学习笔记第四章决策树（课后习题）python 实现

一、基本内容1.基本流程决策树的生成过程是一个递归过程，有三种情形会导致递归返回（1）当前节点包含的yangben全属于同一类别，无需划分；（2）当前属性集为空，或是所有yangben在所有属性上的取值相同，无法划分；（3）当前结点包含的yangben集合为空，不能划分2.划分选择2.1信息增益：对可取值数目较多的属性有所偏好2.2增益率:对可取值数目较少的属性有所...

2018-06-28 16:18:00 865

原创《机器学习》周志华学习笔记第三章线性模型（课后习题）python 实现

线性模型一、内容1.基本形式2.线性回归：均方误差是回归任务中最常用的性能度量3.对数几率回归：对数几率函数（logistic function）对率函数是任意阶可导的凸函数，这是非常重要的性质。4.线性判别分析（LDA 是一种降维的方法）5.多分类学习：5.1基于一些基本策略，利用二分类学习器来解决多分类问题，拆分策略：一对一（OvO）一对其余（OvR）多对多(MvM...

2018-06-13 14:17:00 1070

原创《机器学习》周志华学习笔记第二章模型评估与选择（课后习题）

模型选择与评估一、内容1.经验误差与过拟合1.1 学习器在训练集上的误差称为训练误差（training error）,在新样本上的误差称为泛化误差（generalizion error）。1.2 当学习器把训练样本学习的“太好“了的时候，很有可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降，这种现象在机器学习中称为“过拟合”。与过拟合相...

2018-06-07 10:40:00 802

原创《机器学习》周志华学习笔记第一章绪论（课后习题）

最近需要学习机器学习，有一点点基础但是很少，希望能通过写博客的方式和大家交流以及学习达到共同进步的目的。绪论：一、内容1.基本术语2.假设空间与版本空间3.归纳偏好（常用的有奥卡姆剃刀）没有免费的午餐定理（No Free Lunch Theorem,NFL，前提建设f均匀分布）式（1.2）显示总误差竟然与学习算法无关！告诉我们要谈论算法的相对优劣，必须要针对具体的学习问题。...

2018-06-05 15:38:00 570

Rookiekk