hx14301009-CSDN博客

原创小白仍然努力学习之----GAN基本理论推导

本文仍然基于李宏毅老师的精彩讲授随笔记录对于Generation问题，它要做的事情就是生成的样本的分布尽可能逼近真实样本分布，即如下图：因此，传统的方法就是从真实样本中取样，然后使用MLE让生成样本的分布去尽可能逼近它，我们使用MLE去推算下看看出现什么。其中约等号成立是因为样本是从中取样的，因此可以看做是对的Expectation。然后因为目标是求,因此后面减去一项与无关的东...

2018-09-27 11:27:42 640

原创小白仍然努力学习之----------GAN基础知识

GAN，还是读game吧，听起来好听点。李宏毅还是厉害，讲的深入浅出一.GAN为什么需要generative与discriminative协作理解GAN，首先来看看，如果只用generative能不能做生成？答案是可以！！！但是，有些缺陷：我们想想，如果只用generative来做生成，怎么做呢？就是input一些vector，让net学着去生成和target尽可能...

2018-09-26 21:03:01 486

原创 How transferable are features in deep neural networks?

1.背景和动机本文全篇通过实验说明神经网络的可迁移性，通篇没有一个公式，但是却是2014年NIPS的oral presentation。本文实验使用12年ImageNet大赛的冠军模型AlexNet进行了一系列关于网络各个层级上的可迁移性的实验。因为CNN在提取特征时，前面几层学习到的都是边边角角，线条这样的可以泛化的特征，而随着层级上升，慢慢地特征变得specific。那么问题来了，当我...

2018-09-15 14:49:38 2284 1

原创 pytorch参数初始化以及fine-tune

前言这篇文章算是论坛PyTorch Forums关于参数初始化和finetune的总结，也是我在写代码中用的算是“最佳实践”吧。最后希望大家没事多逛逛论坛，有很多高质量的回答。参数初始化参数的初始化其实就是对参数赋值。而我们需要学习的参数其实都是Variable，它其实是对Tensor的封装，同时提供了data，grad等借口，这就意味着我们可以直接对这些参数进行操作赋值了。这就是Py...

2018-09-13 20:05:05 737 1

原创机器学习之维度灾难

看到几篇比较好的写维度灾难的，记下来以备以后查看。一、介绍本篇文章，我们将讨论所谓的“维度灾难”，并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释，并通过一个由于维度灾难导致的过拟合的例子来讲解。考虑这样一个例子，我们有一些图片，每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做到这一点，我们首先需要考虑猫、狗的量化特征...

2018-09-06 16:50:33 471

原创 EM算法原理与证明

EM算法解高斯混合模型Gaussian Mixture Models 假设我们需要调查我们学校的男生和女生的身高分布。在校园里随便地活捉了100个男生和100个女生，他们共200个人（也就是200个身高的样本数据）。高斯模型你开始喊：“男的左边，女的右边，其他的站中间！”。然后你就先统计抽样得到的100个男生的身高。假设他们的身高是服从高斯分布N(u,∂)的。但是这个分布的均值u和...

2018-07-26 22:12:04 1278

原创 Ng笔记----诊断欠拟合与过拟合 (high bias or high variance)

1.看图可以看到，如果是处于high bias问题，那么training和test set的cost都会很大如果是处于high variance问题，那么training set的cost很小，而test set的cost会很大2. regularization与bias 以及variance的关系可以看到，当我们将正则项的lambda设的很大时，惩罚项很重，曲线变得所有系数都趋于0，一条横线而第...

2018-06-06 11:03:12 3771

原创论文笔记(Attention 2)-----Effective Approaches to Attention-based Neural Machine Translation

上一篇attention介绍了Bahdanau等人提出的一种soft-attention模型。 Luong等人在此基础上提出了两种简单且有效的方式：全局(global)和局部(local)的方式。所谓的global，就是指每次都关注整个source sentence，而local则是在每个时间t，只关注一部分source sentence。Luong等人提出的global类似于Bahdanau等...

2018-05-26 16:26:49 3739 1

原创 Batch Normalization

这篇文章记录下Batch Normalization的一些内容：论文：Sergey Ioffe, Christian Szegedy, “Batch Normalization: AcceleratingDeep Network Training by Reducing Internal Covariate Shift”, 2015我们首先从 feature scaling 说起：假设我们现在的两...

2018-05-26 11:02:08 248

原创 Tips for Generation in Encoder-Decoder model

这里归纳一些在训练Encoder-Decoder模型时的小tip：1.训练时，在Decoder中，RNN的当前输入应该使用上一次RNN的output还是ground truth ?答：如果训练时都使用ground truth作为RNN的当前输入，那么会导致train 和 test的mismatch。因此test时我们没有sample，test的时候只能将上一时间的output作为当前input。 ...

2018-05-26 10:00:34 314

原创论文笔记：GRU----RNN Encoder-Decoder

<<Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation>>这篇论文在传统的Encoder-Decoder模型上使用RNN，模型结构如下：看图就知道要说什么了，亮点在于文章对隐层节点的创新：先回顾下传统的 naive RNN：看图就行，不多说。...

2018-05-25 20:43:36 5054

原创论文笔记(attention 1)----NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

1. weakness of simple RNNenc Architecture 传统的neural machine translation 大都是基于encoder-decoder模型，即通过一个encoder将源句子编码成一个固定长度的向量表示，再使用decoder将这个向量作为输入，然后获得输出。这样的话，Encoder需要将整个句子编码到一个固定长度的向量，如果句子长度不大，还OK...

2018-05-25 16:29:52 2022

原创 LSTM入门介绍

我们先来看看基本的LSTM示意图：为了解决记忆只是基于naive的线性相加造成学习能力弱，引入了input gate和output gate，控制不同时序记忆的影响因子。下面来看看具体的LSTM前向传导过程：输入信息前向传播（以下图片内容出自“Understanding LSTM Networks”）首先，记忆元件（memory cell）接受上一个时刻的输出（ht-1）以及这个时刻的外界信息（x...

2018-05-22 10:55:16 1121

原创理解RNN梯度消失和弥散以及LSTM为什么能解决

根据RNN的BPTT推导，我们可以得到下面的式子：而又有：因此，每一个Sj对Sj-1的偏导都等于tanh‘(..)*W注意到：tanh的梯度最大只能是1，而更多时候都是趋近于0的饱和状态，当求导得到的jacobian矩阵存在一些元素趋近于0，多个矩阵相乘，会使得梯度很快消失。这时候有人会问，为什么不将tanh换成ReLU呢？这样不就可以解决梯度消失了吗？确实，换成ReLU在一定程度上可以解决梯度消...

2018-05-22 10:02:50 27354 4

原创 Computational Graph进行BP计算

最近看一些复杂网络的BP推导看的头疼，通过computational graph之后看起来会舒服很多，这里记录下：1.准备工作首先从最简单的图开始：可以看到，节点表示数，可以是vector，tensor，scala等，连边表示一个函数操作，比如+ - * / 等等下面画一个稍微多一点的小学计算题的计算图：有了这个图了，我们要怎么进行BP计算梯度呢？首先，通过正向传播，将各个节点的值计算出来，如...

2018-05-20 11:27:23 659

原创 A Neural Probabilistic Language Model ------阅读笔记

传统的统计语言模型有一些缺点：1.由于维度灾难(特别是离散变量)，在高维下，数据的稀缺性导致统计语言模型存在很多为0的条件概率，传统的统计语言模型也花费大量的精力来处理这个，包括平滑，插值，回退等方法2.语言模型的参数个数随着阶数呈指数增长，所以一般这个模型的阶数不会很高，这样n-gram无法建立长远的关系3.n-gram无法建模出多个相似词的关系，比如在训练集中有： the cat is wal...

2018-05-17 09:34:16 10107 1

原创 Statistical Language Model笔记+几个简单平滑算法

1. N-GRAM 定在应用中，需要计算一个句子的概率，一个句子是否合理就看他的可能性大小，这里的可能性大小就是用概率来衡量：如在机器翻译中： P(high winds tonite) > P(large winds tonite) 拼写检查中：比如这一句话：The office is about fiIeen minuets from my hous...

2018-05-16 18:43:28 5176 2

原创小白学习机器学习---PCA理论推导

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理，帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数学文...

2018-05-07 16:51:00 657 2

原创小白学习机器学习===谱聚类之NCut切图

Ncut Ncut切法实际上与Ratiocut相似，但Ncut把Ratiocut的分母|Ai|换成vol(Ai)(Vol(Ai)表示子集A中所有边的权重之和)，这种改变与之而来的，是L的normalized，这种特殊称谓会在下文说明，而且这种normalized，使得Ncut对于spectral clustering来说，其实更好，下文会说明。同样，Ncut的目标，也是...

2018-05-07 15:15:09 6200 1

原创小白学习机器学习===非监督学习之谱聚类详细推导

一、谱聚类的演算（一）、演算1、谱聚类概览谱聚类演化于图论，后由于其表现出优秀的性能被广泛应用于聚类中，对比其他无监督聚类（如kmeans），spectral clustering的优点主要有以下：1.过程对数据结构并没有太多的假设要求，如kmeans则要求数据为凸集。2.可以通过构造稀疏similarity graph，使得对于更大的数据集表现出明显优于其他算法的计算速度3.由于s...

2018-05-05 11:32:31 2277

原创小白学习机器学习---第二章:模型评估与选择（+ROC分析）

第二章模型评估与选择(ROC分析图使用第八章集成学习中马疝病毒预测作为示例)2.1 经验误差与过拟合错误率（error rate）：分类错误的样本数占样本总数的比例。精度（accuracy）：1 - 错误率误差（error）：学习器的实际预测输出与样本的真实输出之间的差异称为误差。训练误差（training error） / 经验误差（empirical error）：学习器在训练集上的...

2018-04-13 17:18:58 807

原创训练集-验证集-测试集的关系与作用

通常，在训练有监督的机器学习模型的时候，会将数据划分为训练集、验证集合测试集，划分比例一般为0.6:0.2:0.2。对原始数据进行三个集合的划分，是为了能够选出效果（可以理解为准确率）最好的、泛化能力最佳的模型。训练集（Training set）作用是用来拟合模型，通过设置分类器的参数，训练分类模型。后续结合验证集作用时，会选出同一参数的不同取值，拟合出多个分类器。验证集(Cross Valida...

2018-04-13 17:08:26 833

原创小白学习机器学习---第七章：集成学习

1.个体与集成集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统（multi-classifiersystem）。集成学习的一般结构：先产生一组“个体学习器（individual learner）”，再用种策略将他们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生，如C4.5决策树算法，BP神经网络算法等。...

2018-04-13 13:49:45 1336

原创小白学习机器学习---第七章:贝叶斯分类器

1.贝叶斯决策论(Bayesian decision theory) 贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，它考虑如何基于这些概率和误判损失来选择最优的类别标记。如：设有N种可能的标记，即Y=C1，C2，……Cn，则基于后验概率P（Ci|X）可获得将样本X分类为Ci所产生的期望损失（expected loss）也...

2018-04-12 10:33:05 1220

原创小白学习机器学习---KNN

一简单k-近邻算法本文将从k-邻近算法的思想开始讲起，使用python3一步一步编写代码进行实战训练。并且，我也提供了相应的数据集，对代码进行了详细的注释。除此之外，本文也对sklearn实现k-邻近算法的方法进行了讲解。实战实例：电影类别分类、约会网站配对效果判定、手写数字识别。如果对于代码理解不够的，可以结合本文，观看由南京航空航天大学硕士：深度眸，为大家免费录制的视频...

2018-04-11 21:58:57 610

原创小白学习机器学习---第四章：决策树

1、决策树基本问题1.1 定义我们应该设计什么的算法，使得计算机对贷款申请人员的申请信息自动进行分类，以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等情况。女儿：是公务员不？母亲：是，在税务局上班呢。女儿：那好，我去见见。决策过程：这个女孩的决策过程就是典型的分类树决策。相...

2018-04-11 20:53:51 1589 1

原创小白学习机器学习---第六章:SVM算法原理（2）

一前言上篇文章讲解的是线性SVM的推导过程以及简化版SMO算法的代码实现。本篇文章将讲解SMO算法的优化方法以及非线性SVM。二 SMO算法优化在几百个点组成的小规模数据集上，简化版SMO算法的运行是没有什么问题的，但是在更大的数据集上的运行速度就会变慢。简化版SMO算法的第二个α的选择是随机的，针对这一问题，我们可以使用启发式选择第二个α值，来达到优化效果。1 启发选择方式下面这两个公式想必已...

2018-03-30 20:31:21 1817

原创小白学习机器学习---第六章:SVM算法原理（1）

SVM的英文全称是Support Vector Machines，我们叫它支持向量机。支持向量机是我们用于分类的一种算法。让我们以一个小故事的形式，开启我们的SVM之旅吧。在很久以前的情人节，一位大侠要去救他的爱人，但天空中的魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球，说：”你用一根棍分开它们？要求：尽量在放更多球之后，仍然适用。”于是大侠这样放，干的不错？然后魔鬼，又在桌上放了...

2018-03-30 20:24:46 22959 13

转载小样本学习遇上机器学习--------随笔记录

本文转载自maofeng大神写的很好的概述https://blog.csdn.net/mao_feng/article/details/78939864#comments 深度学习(deep learning)已经广泛应用于各个领域，解决各类问题，例如在图像分类问题上，如图1，区分这10类目标的准确率目前可以轻松做到94%。然而，deep learning是一种data hungry...

2018-03-30 10:40:00 23534 1

原创小白学习机器学习---第五章:神经网络简单模型python实现

简单的单隐层神经网络实现，需要注意的是，隐层的结点个数需要经过多次试验获得最佳参数，如果设置太多可能引起过拟合问题，目前就简单实现其原理。import numpy as npclass BP_network: def __init__(self): ###初始化变量### ###每一层的节点数 self.input_node=0 #输...

2018-03-29 15:17:13 1079

原创小白学习机器学习---第五章：神经网络

1. BP算法分析如下图所示BP网络：对样本 a = (x_k,y_k)，其输出为 ^y_k，即是：由此得出在样本 a 上的均方误差：我们的目标是使所有样本得出的均方误差最小化，为此我们要找到最优的参数（即上图中的连接权(w, v)及对应阈值(θ, γ)）。考虑梯度下降法。比如对于 w = w+Δw，梯度下降法调整式为：式中，η 是学习率，他控制着算法迭代步长，直接关系着算法的收敛速度甚至收敛性。...

2018-03-29 15:10:51 634

原创小白学习机器学习---第四章：决策树（2）

附上实现的ID3算法python代码~~~参考机器学习实战写的#-*- coding: UTF-8 -*-from math import logimport operatorfrom matplotlib.font_manager import FontPropertiesimport matplotlib.pyplot as pltimport copy#创建测试数据def cr...

2018-03-28 15:07:57 339

原创小白学习机器学习---第三章(3)：二分类LDA的python实现

上一节理论推导了LDA的实现，下面放上实现的python代码。"""线性判别分析步骤：1.把来自两类w1,w2的训练样本集X分成X1与X22.计算各类样本的均值向量m1,m23.计算样本类内散度矩阵s1,s24.计算总的类内散度矩阵 Sw=S1+S25.计算Sw的逆矩阵Sw26.求解权向量w=Sw2（m1-m2）7.计算 g(x)=WT(x-1/2(m1+m2)) 根...

2018-03-28 10:57:11 973

原创小白学习机器学习---第三章：线性模型(3):线性判别分析

LDA线性判别分析（Linear Discriminant Analysis）最早由Fisher提出，也叫“Fisher判别分析”。线性判别分析的思想：给定样本数据集，设法将样本投影到某一条直线上，使得同类样本的投影点尽可能接近，异类样本的投影点尽可能远离；在对新的点进行分类预测时，将其投影到这条直线上，根据投影点的位置来判断样本的类别。当x是二维时，我们就要寻找一个方向为ω的直线来使得这些样本...

2018-03-27 21:36:44 524 1

原创小白学习机器学习---第三章(2):对数几率回归python实现

上代码~~~~~~~~###梯度下降法实现多元线性回归def loadDataSet(): ###数据导入函数### dataMatrix=[] #数据矩阵，第一列是w=1.0，第2,3列是特征 labelMatrix=[] #标签矩阵 # myArr=[[-3.5,-3,0],[-2.3,0,0],[-1.0,-0.1,0],[-1.3, -1.0, 0]...

2018-03-27 19:47:10 2501

原创小白学习机器学习---第三章：线性模型(2)：对数几率回归

上一节讨论了如何使用线性模型进行回归学习，通过最小二乘法可以很快求解各参数。但是如果要做的是分类任务，这时候，只需要找到一个单调可微函数将分类任务真实标记y与线性回归模型的预测值联系起来。将线性回归模型简写为：对数线性回归模型可以写成：本质上仍然是线性回归，只不过拟合的是非线性的ln函数了。更一般地，考虑单调可微函数g(*),令，这个模型就叫做广义线性回归模型。对于二分类任务，输出标记 y∈{...

2018-03-27 19:29:44 1608

原创小白学习机器学习---第三章：简单线性模型Python实现

话不多说，直接放上自己写的代码这是y=ax+b的简单实现，直接求导获取最值：多元的类似，只是一个是数，一个是矩阵运算而已from numpy import *import random"""dfdgffhhghghr"""#一维线性方程的线性回归实现，通过求导获得代价函数的最值def loadDataSet2(): ###数据导入自己创一个拟合y=2x+1的数据 da...

2018-03-27 15:31:49 361

原创小白学习机器学习---第三章：线性模型

机器学习所针对的问题有两种：一种是回归，一种是分类。回归是解决连续数据的预测问题，而分类是解决离散数据的预测问题。线性回归是一个典型的回归问题。其实我们在中学时期就接触过，叫最小二乘法。线性回归试图学得一个线性模型以尽可能准确地预测输出结果。先从简单的模型看起：首先，我们只考虑单组变量的情况，有：使得假设有m个数据，我们希望通过x预测的结果f(x)来估计y。其中w和b都是线...

2018-03-27 15:25:04 363

原创机器学习实战------logistic回归

说明：对书中代码错误部分做了修正，可运行于python3.4基本原理：现在有一些数据点，用一条直线对这些数据进行拟合，将它们分为两类。这条直线叫做最佳拟合直线，这个拟合过程叫做回归。logistic回归的思想是，利用一个阶跃函数（在某一点突然由0变1），实现分类器。Sigmoid函数近似于阶跃函数：现在将每个特征乘以一个回归系数，再全部相加，总和带入函数作为输入自变量z，进而得到一个0-1之间输出...

2018-03-11 09:31:20 245

吴恩达机器学习视频课后习题以及答案

经典聚类算法python实现

张志华教授统计机器学习+机器学习导论课程讲义

空空如也