数学基础
文章平均质量分 68
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
回归模型常见的损失函数
注意:如果图片不显示,请建议科学上网或者使用VPN。机器学习中的所有算法都依赖于最小化或最大化函数,我们将其称为“目标函数”。最小化的函数组称为“损失函数”。损失函数是衡量预测模型在能够预测预期结果方面的表现有多好的指标。寻找最小值的最常用方法是“梯度下降”。想想这个函数的作用,如起伏的山脉和梯度下降就像滑下山到达最低点。没有一种损失函数适用于所有类型的数据。它取决于许多因素,包括异常值的存在,机器学习算法的选择,梯度下降的时间效率,易于找到衍生物和预测的置信度。损失函数可大致分为两类:分类和回归转载 2021-08-25 18:45:37 · 2979 阅读 · 1 评论 -
##haohaohao##概率图模型学习笔记:HMM、MEMM、CRF
作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。概率图模型学习笔记:HMM、MEMM、CRF一、Preface二、Prerequisite 2.1 概率图2.1.1 概览2.1.2 有向图 vs. 无向图2.1.3 马尔科夫假设&马尔科夫性2.2 判别式模型 vs. 生成式模型2.3 序列建模三、H.转载 2021-01-21 10:40:57 · 477 阅读 · 0 评论 -
为什么残差连接的网络结构更容易学习
作者:言有三链接:https://www.zhihu.com/question/306135761/answer/683325207来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。关于残差网络为什么有效,研究众多,这里我们就集中讲述几个主流的思路。1、简化了学习过程,增强了梯度传播相比于学习原始的信号,残差网络学习的是信号的差值,这在许多的研究中被验证是更加有效的,它简化了学习的过程。根据我们前面的内容可知,在一定程度上,网络越深表达能力越强,性能越好.原创 2020-11-03 14:50:48 · 2209 阅读 · 0 评论 -
####好好好好#####关于贝叶斯,从贝叶斯方法谈到贝叶斯网络
在生信分析中经常会和贝叶斯打交道,比如贝叶斯分类器、贝叶斯网络、贝叶斯构建进化树等等。但是如果不清楚贝叶斯的原理,其实是很难对整个算法有深入了解的。这里小编整理了网络上的关于贝叶斯的最好的讲解,希望大家把它收藏起来,慢慢的啃。前言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如《数理统计学简史》,以及《统计决策论及贝叶斯分析 James ...转载 2019-10-24 15:47:30 · 388 阅读 · 0 评论 -
#####好好好####关于模型检验的ROC值和KS值的异同_ROC曲线和KS值
关于模型检验的ROC值和KS值的异同_ROC曲线和KS值按我的理解,ROC曲线是累计坏占比曲线(图中蓝色曲线)下面的面积(>0.5),KS值是累计坏占比曲线-累计好占比曲线差值(图中红色曲线)的最大值。实际上他们都是一样的?不知道我的理解是否有误?谢谢! 精彩解答:ROC(Receiver Operating Characteristic Cu转载 2017-11-16 11:25:41 · 2553 阅读 · 0 评论 -
ARIMA模型
ARIMA模型自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)目录[隐藏]1 什么是ARIMA模型?2 ARIMA模型的基本思想3 ARIMA模型预测的基本程序4 相关链接4.1 各国的box-jenkins模型名称5 ARlMA模型案例分析5.转载 2017-07-08 13:29:36 · 4986 阅读 · 0 评论 -
启发式算法(Heuristic Algorithm)
启发式算法(Heuristic Algorithm)有不同的定义:一种定义为,一个基于直观或经验的构造的算法,对优化问题的实例能给出可接受的计算成本(计算时间、占用空间等)内,给出一个近似最优解,该近似解于真实最优解的偏离程度不一定可以事先预计;另一种是,启发式算法是一种技术,这种技术使得在可接受的计算成本内去搜寻最好的解,但不一定能保证所得的可行解和最优解,甚至在多数情况下,无法阐述所得解同最优转载 2017-07-20 15:33:01 · 22605 阅读 · 0 评论 -
ARIMA模型
ARIMA模型自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)目录[隐藏]1什么是ARIMA模型?2ARIMA模型的基本思想3ARIMA模型预测的基本程序4相关链接4.1各国的box-jenkins模型名称5ARlMA模型案例分析5.转载 2017-06-07 10:16:09 · 27728 阅读 · 1 评论 -
DTW(Dynamic Time Warping / 动态时间归整) python实现
[python] view plain copyfrom math import * import matplotlib.pyplot as plt import numpy def print_matrix(mat) : print '[matrix] width : %d height : %d' % (len(mat[0转载 2017-06-02 16:46:34 · 5184 阅读 · 0 评论 -
矩阵特征值分解与奇异值分解含义解析及应用
特征值与特征向量的几何意义矩阵的乘法是什么,别只告诉我只是“前一个矩阵的行乘以后一个矩阵的列”,还会一点的可能还会说“前一个矩阵的列数等于后一个矩阵的行数才能相乘”,然而,这里却会和你说——那都是表象。矩阵乘法真正的含义是变换,我们学《线性代数》一开始就学行变换列变换,那才是线代的核心——别会了点猫腻就忘了本——对,矩阵乘法 就是线性变换,若以其中一个向量A为中心,则B的作用主要是转载 2017-03-22 11:10:51 · 674 阅读 · 0 评论 -
softmax非常形象的示意图
原创 2017-03-08 17:25:28 · 4043 阅读 · 0 评论 -
仿射变换的意义
仿射变换(Affine Transformation或 Affine Map)是一种二维坐标到二维坐标之间的线性变换,它保持了二维图形的“平直性”(即:直线经过变换之后依然是直线)和“平行性”(即:二维图形之间的相对位置关系保持不变,平行线依然是平行线,且直线上点的位置顺序不变)。放射变换可以写为如下的形式:转载 2017-01-13 15:04:27 · 5345 阅读 · 0 评论 -
pyWavelet 小波工具箱的使用笔记
1 介绍本文档的内容参考了pyWavelet 0.1.6的User Guide和ver. 0.2.0的网上例子,主要是把我目前所需要的内容进行了翻译和整理得到的。 主要包含了1D、2D的分解与重构方法,和稳态小波分解重构等内容。 小波包的部分没有翻译,日后有需要的话可能增加。下载地址:http://www.pybytes.com/pywavelets 安装:转载 2016-12-01 17:39:53 · 17424 阅读 · 1 评论 -
EXCEL如何行与列互换转置表格
利用的是EXCEL选择性粘贴功能生活中我们出于需要,要转化行列的次序,EXCEL可以很简单的完成选中表格复制在所需要转置的地方右键 【选择选择性粘贴】 再选转置选项ok 效果如图转载 2016-11-07 16:35:30 · 2706 阅读 · 0 评论 -
决策树学习笔记整理
本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好转载 2017-08-22 17:30:05 · 401 阅读 · 0 评论 -
正则化与数据先验分布的关系
过拟合的原因:使用的模型过于复杂,根据VC维理论:VC维很高的时候,就容易发生bias很低,但variance很高的情形.解决过拟合最常用的方法就是regularization, 常用的有:L1正则, L2正则等.L1正则会使得参数稀疏化, L2正则可以起到平滑的作用, 从贝叶斯理论的角度审视下正则化.从贝叶斯的角度来看, 正则化等价于对模型参数引入先验分布.(先验概率可理解为统计转载 2017-08-29 12:41:07 · 1707 阅读 · 0 评论 -
########好好好好##########贝叶斯网络,看完这篇我终于理解了(附代码)!
目录1. 对概率图模型的理解 2. 细数贝叶斯网络 2.1 频率派观点 2.2 贝叶斯学派 2.3 贝叶斯定理 2.4 贝叶斯网络 2.5 朴素贝叶斯 3. 基于贝叶斯的一些问题 4. 生成式模型和判别式模型的区别 5. 代码实现 6. 参考文献1. 对概率图模型的理解概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型...转载 2019-07-17 18:47:26 · 611 阅读 · 0 评论 -
######好好好######MSE与CE的区别?数学推导 本质理解
面试官先问了几个简单问题,精灵自然轻松答出来了。终于面试官问到了MSE和CE的区别。面试官:MSE和CE你熟悉吗?精灵:熟悉,MSE就是mean square error,CE就是cross entropy。面试官:没错,是这样的,训练神经网络时,你经常用哪一个?精灵:如果是回归问题,用MSE,如果是分类问题,一般用CE。(这是一个小坑,先要区分问题是分类还是回归,面试官故意...转载 2018-10-31 10:57:46 · 1567 阅读 · 0 评论 -
MCMC(Markov Chain Monte Carlo) and Gibbs Sampling
1. 随机模拟随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机转载 2018-01-03 11:42:37 · 629 阅读 · 0 评论 -
蒙特卡洛采样之拒绝采样(Reject Sampling)
引子蒙特卡洛(Monte Carlo)方法是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为基础的数值计算方法。它的核心思想就是使用随机数(或更常见的伪随机数)来解决一些复杂的计算问题。当所求解问题可以转化为某种随机分布的特征数(比如随机事件出现的概率,或者随机变量的期望值等)时,往往就可以考虑使用蒙特卡洛方法。通过随机抽样的方法,以随机事件转载 2018-01-03 11:38:58 · 6523 阅读 · 0 评论 -
####好好好########随机采样和随机模拟
http://blog.csdn.net/pipisorry/article/details/50615652随机采样方法模拟方法:是一种基于“随机数”的计算方法,基于数值采样的近似推断方法,也被称为蒙特卡罗( MonteCarlo )方法、随机模拟方法。通常均匀分布Uniform(0,1) 的样本,即我们熟悉的类rand()函数,可以由线性同余发生器生成转载 2018-01-03 11:13:36 · 626 阅读 · 0 评论 -
####好#几种更牛的采样方法###随机模拟的基本思想和常用采样方法(sampling)
通常,我们会遇到很多问题无法用分析的方法来求得精确解,例如由于式子特别,真的解不出来;一般遇到这种情况,人们经常会采用一些方法去得到近似解(越逼近精确解越好,当然如果一个近似算法与精确解的接近程度能够通过一个式子来衡量或者有上下界,那么这种近似算法比较好,因为人们可以知道接近程度,换个说法,一般一个近似算法被提出后,人们通常都会去考察或寻求刻划近似程度的式子)。本文要谈的随机模拟就转载 2018-01-03 11:01:17 · 490 阅读 · 0 评论 -
多分类问题multicalss classification
多分类问题:有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个而分类任务求解,最经典的拆分策略是:“一对一”,“一对多”,“多对多”(1)一对一给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2,...,cN},一对一将这N个类别两两配对,从而产生N(N-1)/2个二分类任务,在测试阶段新样本将转载 2017-12-27 11:37:53 · 3585 阅读 · 0 评论 -
从随机过程到马尔科夫链蒙特卡洛方法
1. Introduction第一次接触到 Markov Chain Monte Carlo (MCMC) 是在 theano 的 deep learning tutorial 里面讲解到的 RBM 用到了 Gibbs sampling,当时因为要赶着做项目,虽然一头雾水,但是也没没有时间仔细看。趁目前比较清闲,把 machine learning 里面的 sampling methods转载 2017-12-27 11:08:56 · 527 阅读 · 0 评论 -
ROC曲线-阈值评价标准
ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近转载 2017-11-07 14:21:17 · 1551 阅读 · 0 评论 -
pyWavelets工具包的安装及使用
1 介绍本文档的内容参考了pyWavelet 0.1.6的User Guide和ver. 0.2.0的网上例子,主要是把我目前所需要的内容进行了翻译和整理得到的。 主要包含了1D、2D的分解与重构方法,和稳态小波分解重构等内容。 小波包的部分没有翻译,日后有需要的话可能增加。下载地址:http://www.pybytes.com/pywavelets 安装:原创 2016-09-29 17:01:14 · 33152 阅读 · 1 评论 -
Python图像处理库PIL中快速傅里叶变换FFT的实现(一)
离散傅里叶变换(discrete Fouriertransform)傅里叶分析方法是信号分析的最基本方法,傅里叶变换是傅里叶分析的核心,通过它把信号从时间域变换到频率域,进而研究信号的频谱结构和变化规律。FFT是一种DFT的高效算法,称为快速傅立叶变换(fastFourier transform)。在数字图像处理中,FFT的使用非常普遍,是图像处理中最重要的算法之一。在此,我们对FFT转载 2016-11-03 15:16:15 · 2904 阅读 · 0 评论 -
白话压缩感知(含Matlab代码)
压缩感知介绍压缩感知(Compressive Sensing,CS),有时也叫成Compressive Sampling。相对于传统的奈奎斯特采样定理——要求采样频率必须是信号最高频率的两倍或两倍以上(这就要求信号是带限信号,通常在采样前使用低通滤波器使信号带限),压缩感知则利用数据的冗余特性,只采集少量的样本还原原始数据。这所谓的冗余特性,借助MLSS2014马毅老师的课件上的例转载 2016-11-03 15:08:49 · 2044 阅读 · 0 评论 -
图像压缩-从DCT到小波变换
引言未经压缩的多媒体(图形,音频,视频)数据要求很大的存储容量和传输带宽。尽管大容量存储器,处理器速度,和数字通信系统在快速进步,但对数据存储容量和数据通信的需求仍然超越当前技术。近来兴起的数据密集的基于多媒体的Web应用不但需要信号和图像的更有效的编码方式,而且要求对这些信号做基于 存储和通信技术的压缩。静止图像的压缩,已经有ISO(国际标准化组织)和IEC(国际电工技术委员会)建立的'转载 2015-08-28 10:04:38 · 10430 阅读 · 3 评论 -
机器学习和统计模型的差异
在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么?这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机器学习和统计模型的数据科学维恩图。 在这篇文章中,我将尽最大的努力来展示机器学习和统计模型的区别,同时也欢迎业界有经验的朋友对本文进行补充。在我开始之原创 2015-07-30 08:26:48 · 2121 阅读 · 0 评论 -
线性回归、逻辑回归等问题对比分析总结
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性转载 2015-08-07 15:38:19 · 11074 阅读 · 0 评论 -
逻辑回归及美团逻辑回归总结
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;转载 2015-07-27 16:38:45 · 3627 阅读 · 0 评论 -
机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值转载 2015-07-09 21:43:13 · 645 阅读 · 0 评论 -
逻辑回归及线性回归过拟合问题的解决方法
第一部分:Logistic Regression/*************(一)~(二)、Classification / Hypothesis Representation***********/假设随Tumor Size变化,预测病人的肿瘤是恶性(malignant)还是良性(benign)的情况。给出8个数据如下:转载 2015-05-25 15:38:10 · 2234 阅读 · 0 评论 -
生成模型和判别模型
生成模型与判别模型监督学习的任务就是学习一个模型,应用这个模型,对给定的输入预测相应的输出。这个模型一般为决策函数:Y=f(X) 或 条件概率分布:P(Y|X)。监督学习的学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别叫生成模型和判别模型。 生成方法定义由数据学习联合概转载 2015-07-08 16:45:28 · 421 阅读 · 0 评论 -
EM算法的一些感想
EM算法是最大似然估计方法--参数估计方法的一种 为什么要引入EM呢 我觉得 因为参数theta本身是依赖于数据的完整特征 但是只观察了部分特征X 因此需要引入隐藏特征Z 才能建立起theta与X,Z的关系。。。怎么开始这个过程呢?我们现在自己的脑袋里假设存在一个theta(当然我们未知) 利用这个theta对数据进行了采样 由于每个数据的X特征已知 只须采样每个样本的Z特征 (这是一次实验)原创 2015-05-22 12:54:07 · 893 阅读 · 0 评论 -
凸优化的基本概念
凸集的定义为: 其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 常见的凸集有: n维实数空间;一些范数约束形式的集合;仿射子空间;凸集的交集;n维半正定矩阵集;这些都可以通过凸集的定义去证明。 凸函数的定义为: 其几何意义表示为函数任意两点连线上的值大于原创 2015-05-22 09:40:29 · 1340 阅读 · 0 评论 -
数学之美---平凡而又神奇的贝叶斯方法
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记 目录转载 2015-05-22 10:21:15 · 616 阅读 · 0 评论 -
K-means学习进阶以及它与EM的关系
K-means聚类算法 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚转载 2015-05-24 20:20:44 · 6642 阅读 · 1 评论 -
SVM中的拉格朗日乘数法和KKT条件的深入解析
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却原创 2015-07-27 16:02:58 · 1673 阅读 · 0 评论