qishi的博客

学习心得

排序:
默认
按更新时间
按访问量

为什么深度学习不使用牛顿法或拟牛顿法优化

Hessian矩阵是n∗nn∗nn*n的所以空间复杂度会很高 f(xk+1)=f(xk)−1/2gTH−1gf(xk+1)=f(xk)−1/2gTH−1gf(x_{k+1}) = f(x_k)-1/2g^TH^{-1}g,所以当f是convex时,牛顿法迭代目标函数一定会下降,但是深度学习是no...

2018-07-10 22:25:27

阅读数:69

评论数:0

牛顿法

求凸函数的最小值不过就是找出导函数的零点,所以就是对导函数使用牛顿法迭代计算零点。 牛顿法是对目标函数的二阶泰勒展开,也就相当于导函数的一阶泰勒展开。...

2018-07-09 21:55:03

阅读数:20

评论数:0

残差结构的理解

首先我们想一下为什么深度学习的效果很好? 我认为最大的原因就是它可以很轻易的实现非常高复杂度的模型,而在传统上想要实现高复杂度并不是很简单的。 传统方法: 特征变换(其实手段也很有限,因为实用的核函数种类很少) 非线性模型,也决策树为代表的一些模型,adaboost,gbdt,rf等。 ...

2018-07-09 15:34:50

阅读数:30

评论数:0

focal loss

原文 https://blog.csdn.net/u014380165/article/details/77019084 focal 解决的是两个问题: 样本不均衡 专注于难以分类的样本 传统的交叉熵损失:CE=−logptCE=−log⁡ptCE=-\log p_t 其中ptptp_t...

2018-07-04 17:36:27

阅读数:18

评论数:0

MCMC采样方法

马氏链定理 如果满足非周期,任意两个状态之间可达则此马氏链收敛于一个平稳分布。 非周期:只有当n=d,2d,3d,…时,有p(n)ij>0 ,则状态i为周期性的状态,周期为d。当马尔可夫链中任意一个状态都为周期性的状态时,则称马尔可夫链是周期的。 可达的:可从有向图的角...

2018-07-04 17:15:30

阅读数:24

评论数:0

顺序统计量

XXX服从[0,1]上的均匀分布,对X进行5次独立采样,求最大的样本的分布。 计算x为最大的样本的概率,首先它要在某一次被取到(一个有5次机会),其次其他4个样本都比x要小,所以fmax(x)=5f(x)F4(x)=5x4fmax(x)=5f(x)F4(x)=5x4f_{max}(x) = 5f...

2018-07-02 22:26:11

阅读数:10

评论数:0

静态存储区,动态存储区和堆以及栈的关系

所谓静态,就是一定会存在的而且会永恒存在、不会消失,这样的数据包括常量、常变量(const 变量)、静态变量、全局变量等,它们都存储在静态存储区。 动态的话,就是会变化的了。动态的区域,就是堆和栈。这个栈应该称作 call stack,上面会存放函数的返回地址、参数和局部变量。而堆放就是我们通过...

2018-07-02 09:59:44

阅读数:26

评论数:0

static变量的作用域和生存周期,static关键字

静态局部变量、静态全局变量 生存周期: 变量从定义到销毁的时间范围,也就是可以访问的时间段。存放在全局数据区的变量的生存周期存在于整个程序运行期间,而存放在栈中的数据则随着函数等的作用域结束导致出栈而销毁,除了静态变量之外的局部变量都存放于栈中。 作用域: 变量的可见代码域(块作用域,函数作用...

2018-07-02 09:55:25

阅读数:20

评论数:0

策梅洛定理

在二人的有限游戏中,如果双方皆拥有完全的资讯,并且运气因素并不牵涉在游戏中,那先行或后行者当一必有一方有必胜/必不败的策略。 定理具体内容: 在一个双人游戏中,满足: 0. 双人轮流行动 1. 有限步。比如国际象棋好像重复出现三次相同的棋局判和 2. 信息完备。所谓信息完备,大概是玩家明...

2018-06-30 17:31:55

阅读数:36

评论数:0

决策树如何处理缺失数据

决策树或随即森林 中位数(数值型)或众数(类别型) 使用其他的训练数据的相应特征做加权补充 xgboost的方法 分叉时先不考虑缺失值,分好之后分别计算把缺失值放到左面和右面的损失,选择小的作为缺失值分类方向。...

2018-06-21 21:18:52

阅读数:44

评论数:0

梯度的计算与证明

偏导数 偏导数就是一个多元函数沿相应坐标轴的变化率的函数。 计算: 把其他的变量当作常数然后对变量求导即可。 方向导数 多元函数沿某一个方向变化率的函数。 这个方向由一个单位向量(cosα,cosβ,...)(cos⁡α,cos⁡β,...)(\cos\alpha,\cos \beta...

2018-06-21 19:48:39

阅读数:39

评论数:0

MSE和MAE的比较

两种损失函数的性质 异常值 MSE对异常值敏感,因为它的惩罚是平方的,所以异常值的loss会非常大。 MAE对异常之不敏感, 不妨设拟合函数为常数,那么MSE就相当于所有数据的均值(列出loss对c求导即可),而MAE相当于所有数据的中位数,所以会对异常值不敏感。 优化效率 M...

2018-06-20 14:14:09

阅读数:136

评论数:0

特征选择的方法

特征选择的目的: 提高模型的准确率 构建更快的模型 能够对原来的问题给出解释 特征选择的方法: 计算每个特征与label的相关性,缺点:无法对发现特征之间的组合后的特征的重要性,例如异或分类 对每个特征单独训练模型,和1差不多 使用L1正则项进行特征选择 使用permutation特征...

2018-06-19 13:54:31

阅读数:8

评论数:0

卷积神经网络

全连接的缺点: 随着图片的增大参数量迅速增长O(n2)O(n2)O(n^2) 2.而且很多参数都是没什么用的,两个距离非常远的像素点相互其实没有什么关联,不需要把它们放在一起做乘加 卷积层使用步长为一的原因: 尽量在卷积层不丢失信息,只负责数据的变换,而降采样只由pooling层负责,...

2018-06-19 13:16:32

阅读数:31

评论数:0

二叉树的非递归遍历

前序遍历 把栈中的每一个节点都当作是一棵完整的二叉树,每次pop出一个节点,访问,然后把右左两棵子树入栈。 中序遍历 把栈中的每一个节点当作是只有右子树的二叉树,这就需要每次入栈时处理好它的左子树,一路向左把所有的节点入栈,然后出栈,访问,然后把这个节点的右子树当作是二叉树按同样的方法处理(...

2018-06-18 20:38:20

阅读数:9

评论数:0

99杯水,1杯毒药,毒药发作时间为一天,两天时间,最少使用多少只小鼠才能确定哪一杯是毒药?

因为一共有两天时间,所以小鼠有三种状态: 死 活死 活活 那么n只小鼠一个就有3n3n3^n个状态,所以n的最小值为5. 具体操作: 把0-99号杯子转化为3进制,0表示不喝,1表示0时刻喝,2表示1时刻喝。小鼠的状态:死对应1,活死对应2,活活对应0,然后把小鼠的状态转化为10进制则...

2018-06-15 10:44:45

阅读数:1413

评论数:0

需求定律

需求定律(Law of demand)是一条经济学定律,断言假设其他因素不变,当一物品价格增加,其需求量会下降,反之亦然。需求量随价格的变化而变化的曲线——需求曲线 需求: 整个的需求曲线,它代表了消费者的购买意图需求量: 某个价格下的消费者的意图购买量

2018-01-01 12:54:37

阅读数:159

评论数:0

作业部落图片库

此博客存储作业部落所需的图片库

2017-11-29 16:49:02

阅读数:533

评论数:0

Linux下tar gz的含义

tar是指将多个文件打包到一起变成一个文件 本程序最初的设计目的是将文件备份到磁带上(**t**ape **ar**chive),因而得名tar。 gz是gzip的缩写,是一种压缩方式,通常看到的.tar.gz结尾的文件就是通过tar打包后用gz压缩的文件。

2017-11-09 16:20:53

阅读数:190

评论数:0

如何处理不平衡数据

采样法过采样和欠采样过采样:过拟合(学习到小类别样本中的噪声) 欠采样:欠拟合(丢失大类别样本中的重要数据)SMOTE算法找到小类别样本中的k个近邻,然后在他们之间的连线上取点,作为新的样本。缺点:容易过拟合Borderline-SMOTE其与SMOTE的不同是:SMOTE是对每一个minori...

2017-10-16 22:21:16

阅读数:564

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭