自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (3)
  • 收藏
  • 关注

原创 小白仍然努力学习之----GAN基本理论推导

本文仍然基于李宏毅老师的精彩讲授随笔记录对于Generation问题,它要做的事情就是生成的样本的分布尽可能逼近真实样本分布,即如下图:因此,传统的方法就是从真实样本中取样,然后使用MLE让生成样本的分布去尽可能逼近它,我们使用MLE去推算下看看出现什么。其中约等号成立是因为样本是从中取样的,因此可以看做是对的Expectation。然后因为目标是求,因此后面减去一项与无关的东...

2018-09-27 11:27:42 640

原创 小白仍然努力学习之----------GAN基础知识

GAN,还是读game吧,听起来好听点。  李宏毅还是厉害,讲的深入浅出一.GAN为什么需要generative与discriminative协作理解GAN,首先来看看,如果只用generative能不能做生成?答案是  可以!!!但是,有些缺陷:    我们想想,如果只用generative来做生成,怎么做呢?就是input一些vector,让net学着去生成和target尽可能...

2018-09-26 21:03:01 486

原创 How transferable are features in deep neural networks?

1.背景和动机本文全篇通过实验说明神经网络的可迁移性,通篇没有一个公式,但是却是2014年NIPS的oral presentation。本文实验使用12年ImageNet大赛的冠军模型AlexNet进行了一系列关于网络各个层级上的可迁移性的实验。因为CNN在提取特征时,前面几层学习到的都是边边角角,线条这样的可以泛化的特征,而随着层级上升,慢慢地特征变得specific。那么问题来了,当我...

2018-09-15 14:49:38 2284 1

原创 pytorch参数初始化以及fine-tune

前言这篇文章算是论坛PyTorch Forums关于参数初始化和finetune的总结,也是我在写代码中用的算是“最佳实践”吧。最后希望大家没事多逛逛论坛,有很多高质量的回答。参数初始化参数的初始化其实就是对参数赋值。而我们需要学习的参数其实都是Variable,它其实是对Tensor的封装,同时提供了data,grad等借口,这就意味着我们可以直接对这些参数进行操作赋值了。这就是Py...

2018-09-13 20:05:05 737 1

原创 机器学习之维度灾难

看到几篇比较好的写维度灾难的,记下来以备以后查看。一、介绍本篇文章,我们将讨论所谓的“维度灾难”,并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释,并通过一个由于维度灾难导致的过拟合的例子来讲解。考虑这样一个例子,我们有一些图片,每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做到这一点,我们首先需要考虑猫、狗的量化特征...

2018-09-06 16:50:33 471

原创 EM算法原理与证明

EM算法解高斯混合模型Gaussian Mixture Models 假设我们需要调查我们学校的男生和女生的身高分布。在校园里随便地活捉了100个男生和100个女生,他们共200个人(也就是200个身高的样本数据)。高斯模型你开始喊:“男的左边,女的右边,其他的站中间!”。然后你就先统计抽样得到的100个男生的身高。假设他们的身高是服从高斯分布N(u,∂)的。但是这个分布的均值u和...

2018-07-26 22:12:04 1278

原创 Ng笔记----诊断欠拟合与过拟合 (high bias or high variance)

1.看图可以看到,如果是处于high bias问题,那么training和test set的cost都会很大如果是处于high variance问题,那么training set的cost很小,而test set的cost会很大2. regularization与bias 以及variance的关系可以看到,当我们将正则项的lambda设的很大时,惩罚项很重,曲线变得所有系数都趋于0,一条横线而第...

2018-06-06 11:03:12 3771

原创 论文笔记(Attention 2)-----Effective Approaches to Attention-based Neural Machine Translation

上一篇attention介绍了Bahdanau等人提出的一种soft-attention模型。  Luong等人在此基础上提出了两种简单且有效的方式:全局(global)和局部(local)的方式。所谓的global,就是指每次都关注整个source sentence,而local则是在每个时间t,只关注一部分source sentence。Luong等人提出的global类似于Bahdanau等...

2018-05-26 16:26:49 3739 1

原创 Batch Normalization

这篇文章记录下Batch Normalization的一些内容:论文:Sergey Ioffe, Christian Szegedy, “Batch Normalization: AcceleratingDeep Network Training by Reducing Internal Covariate Shift”, 2015我们首先从 feature scaling 说起:假设我们现在的两...

2018-05-26 11:02:08 248

原创 Tips for Generation in Encoder-Decoder model

这里归纳一些在训练Encoder-Decoder模型时的小tip:1.训练时,在Decoder中,RNN的当前输入应该使用上一次RNN的output还是ground truth ?答:如果训练时都使用ground truth作为RNN的当前输入,那么会导致train 和 test的mismatch。因此test时我们没有sample,test的时候只能将上一时间的output作为当前input。 ...

2018-05-26 10:00:34 314

原创 论文笔记:GRU----RNN Encoder-Decoder

<<Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation>>这篇论文在传统的Encoder-Decoder模型上使用RNN,模型结构如下:看图就知道要说什么了,亮点在于文章对隐层节点的创新:先回顾下传统的 naive RNN:看图就行,不多说。...

2018-05-25 20:43:36 5054

原创 论文笔记(attention 1)----NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

1. weakness of simple RNNenc Architecture    传统的neural machine translation 大都是基于encoder-decoder模型,即通过一个encoder将源句子编码成一个固定长度的向量表示,再使用decoder将这个向量作为输入,然后获得输出。这样的话,Encoder需要将整个句子编码到一个固定长度的向量,如果句子长度不大,还OK...

2018-05-25 16:29:52 2022

原创 LSTM入门介绍

我们先来看看基本的LSTM示意图:为了解决记忆只是基于naive的线性相加造成学习能力弱,引入了input gate和output gate,控制不同时序记忆的影响因子。下面来看看具体的LSTM前向传导过程:输入信息前向传播(以下图片内容出自“Understanding LSTM Networks”)首先,记忆元件(memory cell)接受上一个时刻的输出(ht-1)以及这个时刻的外界信息(x...

2018-05-22 10:55:16 1121

原创 理解RNN梯度消失和弥散以及LSTM为什么能解决

根据RNN的BPTT推导,我们可以得到下面的式子:而又有:因此,每一个Sj对Sj-1的偏导都等于tanh‘(..)*W注意到:tanh的梯度最大只能是1,而更多时候都是趋近于0的饱和状态,当求导得到的jacobian矩阵存在一些元素趋近于0,多个矩阵相乘,会使得梯度很快消失。这时候有人会问,为什么不将tanh换成ReLU呢?这样不就可以解决梯度消失了吗?确实,换成ReLU在一定程度上可以解决梯度消...

2018-05-22 10:02:50 27354 4

原创 Computational Graph进行BP计算

最近看一些复杂网络的BP推导看的头疼,通过computational graph之后看起来会舒服很多,这里记录下:1.准备工作首先从最简单的图开始:可以看到,节点表示数,可以是vector,tensor,scala等  ,连边表示一个函数操作,比如+ - * / 等等下面画一个稍微多一点的小学计算题的计算图:有了这个图了,我们要怎么进行BP计算梯度呢?首先,通过正向传播,将各个节点的值计算出来,如...

2018-05-20 11:27:23 659

原创 A Neural Probabilistic Language Model ------阅读笔记

传统的统计语言模型有一些缺点:1.由于维度灾难(特别是离散变量),在高维下,数据的稀缺性导致统计语言模型存在很多为0的条件概率,传统的统计语言模型也花费大量的精力来处理这个,包括平滑,插值,回退等方法2.语言模型的参数个数随着阶数呈指数增长,所以一般这个模型的阶数不会很高,这样n-gram无法建立长远的关系3.n-gram无法建模出多个相似词的关系,比如在训练集中有: the cat is wal...

2018-05-17 09:34:16 10107 1

原创 Statistical Language Model笔记+几个简单平滑算法

1. N-GRAM 定在应用中,需要计算一个句子的概率,一个句子是否合理就看他的可能性大小,这里的可能性大小就是用概率来衡量:如在机器翻译中:       P(high  winds  tonite)  >  P(large  winds  tonite) 拼写检查中:比如这一句话:The  office  is  about  fiIeen  minuets  from  my  hous...

2018-05-16 18:43:28 5176 2

原创 小白学习机器学习---PCA理论推导

PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数学文...

2018-05-07 16:51:00 657 2

原创 小白学习机器学习===谱聚类之NCut切图

Ncut       Ncut切法实际上与Ratiocut相似,但Ncut把Ratiocut的分母|Ai|换成vol(Ai)(Vol(Ai)表示子集A中所有边的权重之和),这种改变与之而来的,是L的normalized,这种特殊称谓会在下文说明,而且这种normalized,使得Ncut对于spectral clustering来说,其实更好,下文会说明。        同样,Ncut的目标,也是...

2018-05-07 15:15:09 6200 1

原创 小白学习机器学习===非监督学习之谱聚类详细推导

一、谱聚类的演算(一)、演算1、谱聚类概览       谱聚类演化于图论,后由于其表现出优秀的性能被广泛应用于聚类中,对比其他无监督聚类(如kmeans),spectral clustering的优点主要有以下:1.过程对数据结构并没有太多的假设要求,如kmeans则要求数据为凸集。2.可以通过构造稀疏similarity graph,使得对于更大的数据集表现出明显优于其他算法的计算速度3.由于s...

2018-05-05 11:32:31 2277

原创 小白学习机器学习---第二章:模型评估与选择(+ROC分析)

第二章    模型评估与选择(ROC分析图使用第八章集成学习中马疝病毒预测作为示例)2.1  经验误差与过拟合错误率(error rate):分类错误的样本数占样本总数的比例。精度(accuracy):1 - 错误率误差(error):学习器的实际预测输出与样本的真实输出之间的差异称为误差。训练误差(training error) / 经验误差(empirical error):学习器在训练集上的...

2018-04-13 17:18:58 807

原创 训练集-验证集-测试集的关系与作用

通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集、验证集合测试集,划分比例一般为0.6:0.2:0.2。对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的、泛化能力最佳的模型。训练集(Training set)作用是用来拟合模型,通过设置分类器的参数,训练分类模型。后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器。验证集(Cross Valida...

2018-04-13 17:08:26 833

原创 小白学习机器学习---第七章:集成学习

1.个体与集成    集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifiersystem)。       集成学习的一般结构:先产生一组“个体学习器(individual learner)”,再用种策略将他们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生,如C4.5决策树算法,BP神经网络算法等。...

2018-04-13 13:49:45 1336

原创 小白学习机器学习---第七章:贝叶斯分类器

1.贝叶斯决策论(Bayesian decision theory)        贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,它考虑如何基于这些概率和误判损失来选择最优的类别标记。        如:设有N种可能的标记,即Y=C1,C2,……Cn,则基于后验概率P(Ci|X)可获得将样本X分类为Ci所产生的期望损失(expected loss)也...

2018-04-12 10:33:05 1220

原创 小白学习机器学习---KNN

一 简单k-近邻算法    本文将从k-邻近算法的思想开始讲起,使用python3一步一步编写代码进行实战训练。并且,我也提供了相应的数据集,对代码进行了详细的注释。除此之外,本文也对sklearn实现k-邻近算法的方法进行了讲解。实战实例:电影类别分类、约会网站配对效果判定、手写数字识别。   如果对于代码理解不够的,可以结合本文,观看由南京航空航天大学硕士:深度眸,为大家免费录制的视频...

2018-04-11 21:58:57 610

原创 小白学习机器学习---第四章:决策树

1、决策树基本问题1.1 定义我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见。决策过程:这个女孩的决策过程就是典型的分类树决策。相...

2018-04-11 20:53:51 1589 1

原创 小白学习机器学习---第六章:SVM算法原理(2)

一 前言上篇文章讲解的是线性SVM的推导过程以及简化版SMO算法的代码实现。本篇文章将讲解SMO算法的优化方法以及非线性SVM。二 SMO算法优化在几百个点组成的小规模数据集上,简化版SMO算法的运行是没有什么问题的,但是在更大的数据集上的运行速度就会变慢。简化版SMO算法的第二个α的选择是随机的,针对这一问题,我们可以使用启发式选择第二个α值,来达到优化效果。1 启发选择方式下面这两个公式想必已...

2018-03-30 20:31:21 1817

原创 小白学习机器学习---第六章:SVM算法原理(1)

SVM的英文全称是Support Vector Machines,我们叫它支持向量机。支持向量机是我们用于分类的一种算法。让我们以一个小故事的形式,开启我们的SVM之旅吧。在很久以前的情人节,一位大侠要去救他的爱人,但天空中的魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球,说:”你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”于是大侠这样放,干的不错?然后魔鬼,又在桌上放了...

2018-03-30 20:24:46 22959 13

转载 小样本学习遇上机器学习--------随笔记录

本文转载自maofeng大神写的很好的概述https://blog.csdn.net/mao_feng/article/details/78939864#comments  深度学习(deep learning)已经广泛应用于各个领域,解决各类问题,例如在图像分类问题上,如图1,区分这10类目标的准确率目前可以轻松做到94%。然而,deep learning是一种data hungry...

2018-03-30 10:40:00 23534 1

原创 小白学习机器学习---第五章:神经网络简单模型python实现

简单的单隐层神经网络实现,需要注意的是,隐层的结点个数需要经过多次试验获得最佳参数,如果设置太多可能引起过拟合问题,目前就简单实现其原理。import numpy as npclass BP_network: def __init__(self): ###初始化变量### ###每一层的节点数 self.input_node=0 #输...

2018-03-29 15:17:13 1079

原创 小白学习机器学习---第五章:神经网络

1. BP算法分析如下图所示BP网络:对样本 a = (x_k,y_k),其输出为 ^y_k,即是:由此得出在样本 a 上的均方误差:我们的目标是使所有样本得出的均方误差最小化,为此我们要找到最优的参数(即上图中的连接权(w, v)及对应阈值(θ, γ))。考虑梯度下降法。比如对于 w = w+Δw,梯度下降法调整式为:式中,η 是学习率,他控制着算法迭代步长,直接关系着算法的收敛速度甚至收敛性。...

2018-03-29 15:10:51 634

原创 小白学习机器学习---第四章:决策树(2)

附上实现的ID3算法python代码~~~参考机器学习实战写的#-*- coding: UTF-8 -*-from math import logimport operatorfrom matplotlib.font_manager import FontPropertiesimport matplotlib.pyplot as pltimport copy#创建测试数据def cr...

2018-03-28 15:07:57 339

原创 小白学习机器学习---第三章(3):二分类LDA的python实现

上一节理论推导了LDA的实现,下面放上实现的python代码。"""线性判别分析步骤:1.把来自两类w1,w2的训练样本集X分成X1与X22.计算各类样本的均值向量m1,m23.计算样本类内散度矩阵s1,s24.计算总的类内散度矩阵 Sw=S1+S25.计算Sw的逆矩阵Sw26.求解权向量w=Sw2(m1-m2)7.计算 g(x)=WT(x-1/2(m1+m2)) 根...

2018-03-28 10:57:11 973

原创 小白学习机器学习---第三章:线性模型(3):线性判别分析

LDA线性判别分析(Linear Discriminant  Analysis)最早由Fisher提出,也叫“Fisher判别分析”。线性判别分析的思想:给定样本数据集,设法将样本投影到某一条直线上,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能远离;在对新的点进行分类预测时,将其投影到这条直线上,根据投影点的位置来判断样本的类别。当x是二维时,我们就要寻找一个方向为ω的直线来使得这些样本...

2018-03-27 21:36:44 524 1

原创 小白学习机器学习---第三章(2):对数几率回归python实现

上代码~~~~~~~~###梯度下降法实现多元线性回归def loadDataSet(): ###数据导入函数### dataMatrix=[] #数据矩阵,第一列是w=1.0,第2,3列是特征 labelMatrix=[] #标签矩阵 # myArr=[[-3.5,-3,0],[-2.3,0,0],[-1.0,-0.1,0],[-1.3, -1.0, 0]...

2018-03-27 19:47:10 2501

原创 小白学习机器学习---第三章:线性模型(2):对数几率回归

上一节讨论了如何使用线性模型进行回归学习,通过最小二乘法可以很快求解各参数。但是如果要做的是分类任务,这时候,只需要找到一个单调可微函数将分类任务真实标记y与线性回归模型的预测值联系起来。将线性回归模型简写为:对数线性回归模型可以写成:本质上仍然是线性回归,只不过拟合的是非线性的ln函数了。 更一般地,考虑单调可微函数g(*),令,这个模型就叫做广义线性回归模型。对于二分类任务,输出标记  y∈{...

2018-03-27 19:29:44 1608

原创 小白学习机器学习---第三章:简单线性模型Python实现

话不多说,直接放上自己写的代码这是y=ax+b的简单实现,直接求导获取最值:多元的类似,只是一个是数,一个是矩阵运算而已from numpy import *import random"""dfdgffhhghghr"""#一维线性方程的线性回归实现,通过求导获得代价函数的最值def loadDataSet2(): ###数据导入 自己创一个拟合y=2x+1的数据 da...

2018-03-27 15:31:49 361

原创 小白学习机器学习---第三章:线性模型

机器学习所针对的问题有两种:一种是回归,一种是分类。回归是解决连续数据的预测问题,而分类是解决离散数据的预测问题。线性回归是一个典型的回归问题。其实我们在中学时期就接触过,叫最小二乘法。  线性回归试图学得一个线性模型以尽可能准确地预测输出结果。 先从简单的模型看起:   首先,我们只考虑单组变量的情况,有:  使得    假设有m个数据,我们希望通过x预测的结果f(x)来估计y。其中w和b都是线...

2018-03-27 15:25:04 363

原创 机器学习实战------logistic回归

说明:对书中代码错误部分做了修正,可运行于python3.4基本原理:现在有一些数据点,用一条直线对这些数据进行拟合,将它们分为两类。这条直线叫做最佳拟合直线,这个拟合过程叫做回归。logistic回归的思想是,利用一个阶跃函数(在某一点突然由0变1),实现分类器。Sigmoid函数近似于阶跃函数:现在将每个特征乘以一个回归系数,再全部相加,总和带入函数作为输入自变量z,进而得到一个0-1之间输出...

2018-03-11 09:31:20 245

吴恩达机器学习视频课后习题以及答案

吴恩达教授machine learning 的exercise以及代码与解析

2018-08-01

经典聚类算法python实现

包括K-Means,二分K-Means算法,谱聚类算法,高斯混合聚类算法等常用聚类算法实现,并且有注释解释代码、

2018-06-09

张志华教授统计机器学习+机器学习导论课程讲义

张志华教授的统计机器学习课程讲义、机器学习导论讲义 作业+答案

2018-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除