2018年08月_furuit

12月 11月 10月 09月 08月 06月 05月 04月 03月 01月

原创 L1 L2正则化

L1和L2正则都是比较常见和常用的正则化项，都可以达到防止过拟合的效果。L1正则化的解具有稀疏性，可用于特征选择。L2正则化的解都比较小，抗扰动能力强。L2正则化　　对模型参数的L2正则项为　　　　即权重向量中各个元素的平方和，通常取1/2。L2正则也经常被称作“权重衰减”（weight decay）和“岭回归”。　　设带L2正则化的损失函数：　　　　假设损失函数在二维...

2018-08-28 20:37:17 1500

在看 ladder network(https://arxiv.org/pdf/1507.02672v2.pdf) 时初次遇到batch normalization（BN）. 文中说BN能加速收敛等好处，但是并不理解，然后就在网上搜了些关于BN的资料。看了知乎上关于深度学习中 Batch Normalization为什么效果好？和CSDN上一个关于Batch Normalization 的学...

2018-08-27 17:40:31 639

原创 bp算法中梯度消失

主要是因为以前用sigmoid的时候，sigmoid中心部位和两侧的梯度差别太大，如果权重初始化得太大，激活值基本都在sigmoid两侧，两侧梯度几乎为0，传播几层就没有梯度了。即使用很好的初始化算法把激活值控制在一个合理范围内，优化几下有几个神经元就又跑到两侧了，而一旦到两侧，因为梯度过小，就再也无法通过梯度更新来使其恢复。这个问题在提出ReLU和有效的初始化方法（例如MSRA）后已经大...

2018-08-27 17:30:51 1318

原创反向传播5

上篇文章 Back propagation中，我们小试牛刀，将反向传播算法运用到了一个两层的神经网络结构中！然后往往实际中的神经网络拥有3层甚至更多层的结构，我们接下来就已一个三层的神经网络结构为例，分析如何运用动态规划来优化反向传播时微分的计算！Lets get started!!!如下的网络结构：在正式分析神经网络之前，我们先修改一下权重矩阵的表示形式！让我们以一个符号开始...

2018-08-27 17:25:03 378

原创卷积神经网络中的1*1卷积

我们都知道，卷积核的作用在于特征的抽取，越是大的卷积核尺寸就意味着更大的感受野，当然随之而来的是更多的参数。早在1998年，LeCun大神发布的LetNet-5模型中就会出，图像空域内具有局部相关性，卷积的过程是对局部相关性的一种抽取。但是在学习卷积神经网络的过程中，我们常常会看到一股清流般的存在—1*1的卷积！比如在残差网络的直连里：残差网络的Bootleneck残差模块里： ...

2018-08-27 17:08:57 1755 1

原创交叉熵作为损失函数在神经网络中的作用

交叉熵的作用通过神经网络解决多分类问题时，最常用的一种方式就是在最后一层设置n个输出节点，无论在浅层神经网络还是在CNN中都是如此，比如，在AlexNet中最后的输出层有1000个节点：而即便是ResNet取消了全连接层，也会在最后有一个1000个节点的输出层：一般情况下，最后一个输出层的节点个数与分类任务的目标数相等。假设最后的节点数为N，那么对于每一个样例，神经网络可以得到一个N...

2018-08-27 17:02:37 815

原创反向传播4

上一篇文章练习的都还是比较简单的网络的反向传播，但恭喜你已经了解到反向传播的最核心的思想！这篇文章，我们会正式引入一个真实的神经网络结构，然后进行反向传播的计算！并且利用矩阵来简化计算过程！其实大家有基础的话，推荐大家直接看这篇文章，前面的几篇都可以跳过，省时间。Lets get started!!!神经网络的结构如下:上图的神经网络包括两层网络。第一层是输入层，包括三个神经元，第...

2018-08-27 15:43:15 372

原创反向传播3

上一篇将了复杂一点的例子，是神经网络的一个小部分的bp算法，而且求的是梯度上升。我们会将算法应用到一个标准的神经网络中，让我们看看真正的反向传播算法是什么样的！大家对神经网络需要了解的可以点击链接Lets get started!!!我们将引入神经网络最常见的激活函数sigmoid函数！一般放在最后一层是它的衍生softmax激活函数。我们bp算法也是从最后往前推算的。 ...

2018-08-27 14:49:31 214

原创反向传播2

上一篇讲了反向传播与梯度下降的关系，然后顺便补充了，梯度下降该如何计算。其实数学角度就是链式求导法则。如果熟悉的人可以直接看这里，简单举了一个bp的例子，便于理解。对于函数我们想要更新变量a，b的值使f的值增加，就可以根据以下公式来更新实际上这就是反向传播的最基本的思想！我们试想假设f函数是一个代价函数，神经网络的训练就是将代价函数的值变小，那么就是问题就变成了，对...

2018-08-27 11:13:12 397

原创反向传播

深度学习领域为了使得loss值最小，会用反向传播算法（bp）来达到目的。其实反向传播的核心就是梯度下降，有时候如果不太追究那些细节的话，个人觉的2者没什么区别。反向传播从最后一层逆着用链式求导法则，一直推算到第一层。求导的每逆着推算一层的计算结果就是梯度下降里面的下山，每一步沿着最陡（K斜率即导数也）的方向下山也。所以下山的关键是起始点和下山的步长（即学习率）。下山最陡的方向就是每一次的求导也，导...

2018-08-27 10:49:16 786

原创深入梯度下降(Gradient Descent)

深入梯度下降(Gradient Descent)算法 1 问题的引出对于吴恩达的线性回归，先化一个为一个特征θ1，θ0为偏置项，最后列出的误差函数如下图所示：手动求解目标是优化J(θ1)（其实就是神经网络里面的loss函数，使得loss值最小），得到其最小化，下图中的×为y(i)，下面给出TrainSet，{(1,1),(2,2),(3,3)}通过手动寻找来找到最优解，由图...

2018-08-27 10:25:14 1014

原创激活函数

激活函数的目的是为了使得，线性的输入数据变成非线性的，因为我们现实中的数据肯定是多维度的，多特征的，那么肯定不是线性的。所以我们用激活函数使其非线性化。一般激活函数常用的有2种，relu用在中间的激活函数，还有一个是softmax一般放在最后，作为预测分类函数。1.relu 的X的负轴时，y为0 。使得神经网络是稀疏矩阵，相当于dropout，可以防过拟合。relu 的x的正轴时，...

2018-08-26 20:45:55 1004

原创堆和栈的区别

堆和栈的区别非本人作!因非常经典,所以收归旗下,与众人阅之堆和栈的区别一、预备知识—程序的内存分配一个由c/C++编译的程序占用的内存分为以下几个部分1、栈区（stack）— 由编译器自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中的栈。2、堆区（heap） — 一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是...

2018-08-26 17:08:47 182

原创 c++刷题网站

Welcome To PKU JudgeOnline 北京大学的Online Judge。POJ上面的题目有点老了，但好处是做的人多，经典算法题多，解题报告也多，适合上手。- ZOJ : Home 浙江大学的Online Judge。ZOJ用的不多，但为数不多的几次体验好像都还可以，值得尝试。- Welcome to Hangzhou Dianzi University Online Judg...

2018-08-26 10:38:04 13274 4

原创 Python 内存管理机制和垃圾回收机制

内存管理Python中的内存管理机制的层次结构提供了4层，其中最底层则是C运行的malloc和free接口，往上的三层才是由Python实现并且维护的。第一层则是在第0层的基础之上对其提供的接口进行了统一的封装，这是因为虽然不同的操作系统都提供标准定义的内存管理接口，但是对于某些特殊的情况不同的操作系统都不同的行为，比如说调用malloc(0)，有的操作系统会返回NULL，表示内存...

2018-08-26 10:31:09 1719 1

原创 Python垃圾回收机制 2

GC作为现代编程语言的自动内存管理机制，专注于两件事：1. 找到内存中无用的垃圾资源 2. 清除这些垃圾并把内存让出来给其他对象使用。GC彻底把程序员从资源管理的重担中解放出来，让他们有更多的时间放在业务逻辑上。但这并不意味着码农就可以不去了解GC，毕竟多了解GC知识还是有利于我们写出更健壮的代码。引用计数Python语言默认采用的垃圾收集机制是『引用计数法 Reference Count...

2018-08-26 10:29:30 156

原创损失函数为什么用平方形式

这两种形式本质上是等价的。只是MSE计算得到的值比SSE计算得到的值要小，因为除了一个n。误差平方和以及均方差的公式中有系数1/2，是为了求导后，系数被约去。它们都是平方形式，一个重要原因是：误差的平方形式是正的，是正数。这样正的误差和负的误差不会相互抵消。这就是为什么不用一次方，三次方的原因。但是，误差的绝对值也是正的，为什么不用绝对值呢。所有还有第二个重要原因是：平方形式对大...

2018-08-23 18:48:32 2810

原创 c语言中ifndef和endif的用法

#ifndef x //if not define x 的简写 #define x 　　...　程序段1 //如果x没有被宏定义过，定义x，并编译程序段1　#endif程序段2 //如果x已经定义过了则编译程序段2的语句，“忽视”程序段1。这是宏定义的一种，它可以根据是否已经定义了一个变量来进行分支选择，一般用于调试等等.实际上确切的说这应该是预处理功...

2018-08-22 15:54:46 4532

原创 C语言按位与按位或按位异或按位取反（二）

位运算是指按二进制进行的运算。在系统软件中，常常需要处理二进制位的问题。C语言提供了6个位操作运算符。这些运算符只能用于整型操作数，即只能用于带符号或无符号的char,short,int与long类型。C语言提供的位运算符列表：运算符含义描述& 按位与如果两个相应的二进制位都为1，则该位的结果值为1，否则为0| 按位或两个相应的二进制位中只要有一个为1，该位的结果值为1...

2018-08-18 15:16:35 19280 1

原创 C语言按位与按位或按位异或按位取反（一）

与运算：&两者都为1为1，否则为01&1=1, 1&0=0, 0&1=0, 0&0=0或运算：|两者都为0为0，否则为11|1 = 1, 1|0 = 1, 0|1 = 1, 0|0 = 0非运算：~1取0，0取1~1 = 0, ~0 = 1~(10001) = 01110异或运算两者相等为0,不等为11^1=0...

2018-08-18 15:14:46 23676

原创 c++ bool

#include <iostream>#include <stdio.h>using namespace std;int main(void){ bool b = 100; bool c = false; cout<<b<<endl;//运行结果为1 cout<<c<<endl;//运行结...

2018-08-14 21:04:13 453

kaggle_titanic数据集

去kaggle上下载资源太麻烦了，每次下载还要登录邮箱，没有的话基本等不上去，也就没法下载，所以就发到这里共享，里面有训练集，测试集。是最全的数据集了。

2018-03-23

形式化方法

形式化方法：通过数学逻辑来表述一个软件开发，最终还可以通过验证来证明软件开发的可行性。

2018-03-17

c++经典算法

这里收录了一些面试的经典c++算法，也是对于刚入门c/c++的来说练习必备

2017-12-17

斯坦福大学的机器学习视频资料总结的笔记

美国斯坦福大学的公开视频，但是经过亲自整理的笔记，对于那些不想看视频的同学而言，看它学习直接有方便，建议还是已经入门的同学直接学习会好理解点，但是此笔记已经写的很详细，通俗易懂了，毕竟是吴恩达大牛讲的视频。

2017-10-16

SQL server 2008编程入门经典

《SQL Server 2008编程入门经典(第3版)》由浅入深逐步介绍了SQL Server数据库的高级主题，重点讨论了SQL Server 2008的特殊功能以及与其他编程环境的不同之处。作者Robert Vieria是Microsoft SQL，Server方面的权威，他采用通俗易懂的方法揭示了SQL Server-2008核心组件的重要更改。, 《SQL Server 2008编程入门经典(第3版)》首先概述了数据库设计的概念，介绍了如何用SQL Setver 2008实现这些基本概念。然后，讲述了RDBMS（关系数据库管理系统）的功能和它在开发系统架构方面的优势。SQL Server 2008的新增内容和更改包括：DATE和TIME数据类型、hierarchyID数据类型、MERGE命令和多行插入，以及递归查询等。《SQL Server 2008编程入门经典(第3版)》旨在帮助您快速地掌握Microsoft SQL Selwer2008的编程技术。

2017-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

fu6543210的博客