machine learning
文章平均质量分 59
道墟散人
这个作者很懒,什么都没留下…
展开
-
soft-margin SVM中系数C取值的影响
按照LibSVM的习惯,SVM的目标函数是这样的:这里的参数C代表的是在线性不可分的情况下,对分类错误的惩罚程度。C值越大,分类器就越不愿意允许分类错误(“离群点”)。如果C值太大,分类器就会竭尽全力地在训练数据上少犯错误,而实际上这是不可能/没有意义的,于是就造成过拟合。而C值过小时,分类器就会过于“不在乎”分类错误,于是分类性能就会较差。https://www.zhihu.com/question/40217487...原创 2020-09-01 10:39:12 · 1334 阅读 · 0 评论 -
常见机器学习、深度学习面试问题总结
持续更新中…1.为什么LR需要归一化?为什么LR把特征离散化后效果更好?归一化能提高梯度下降的速度,加快收敛速度,消除不同特征之间取值的差异性。https://blog.csdn.net/weixin_38111819/article/details/79729444https://www.zhihu.com/question/319899522.为什么加入正则化项能降低过拟合?过拟合发生的本质原因,是由于监督学习问题的不适定:数据远远少于模型空间。为什么正则化能够避免过拟合:因为正则化就是控原创 2020-08-28 11:17:32 · 357 阅读 · 0 评论 -
为什么逻辑回归用交叉熵损失函数而不是均方差损失函数?
https://zhuanlan.zhihu.com/p/58883095原创 2020-08-20 17:24:53 · 2108 阅读 · 0 评论 -
LightGBM实现原理以及与XGBoost的区别
https://zhuanlan.zhihu.com/p/99069186原创 2020-08-11 18:32:44 · 165 阅读 · 0 评论 -
图卷积神经网络原理介绍
如何理解 Graph Convolutional Network(GCN)空间方法的GCN论文:GCN: Kipf, T. N., & Welling, M. (2016). Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907.GraphSAGE: Hamilton, W., Ying, Z., & Leskovec, J. (2017).原创 2020-07-29 18:14:08 · 578 阅读 · 0 评论 -
傅里叶变换和拉普拉斯变换
一、奥列弗. 赫维赛德是何许人也二、傅里叶变换(轻量版拉普拉斯变换)三、拉普拉斯变换(原来就是那么回事)拉普拉斯变换可以说是现代工程学使用最广泛的数学工具,它通过数学变换将微积分方程转化成代数方程,为求解连续空间连续时间的方程提供了可能。但是,一般的教材一上来就是拉普拉斯变换的数学定义,对于其历史和代表的深刻含义没有任何介绍,导致很多人一直头疼不已。今天,我们尝试一下从不同的角度来看看拉普拉斯变换到底是怎么回事?先从一个人说起:奥列弗.赫维赛德,一位在科学史地位被严重低估的人。一、奥列弗. 赫维赛德是何转载 2020-07-22 16:25:39 · 5512 阅读 · 0 评论 -
Numpy使用笔记(2):矩阵的运算
https://www.cnblogs.com/qflyue/p/8244331.html原创 2020-07-08 16:19:27 · 352 阅读 · 0 评论 -
Numpy使用笔记(1):矩阵的创建
导包import numpy as np1.创建矩阵1.1 ndarray#创建一维的narray对象a = np.array([1,2,3,4,5])#创建二维的narray对象a2 = np.array([[1,2,3,4,5],[6,7,8,9,10]])1.2 通过函数创建矩阵1.2.1 np.arange([start, ]stop, [step, ], dtype=None)a = np.arange(10) # 默认从0开始到10(不包括10),步长为1b = bn原创 2020-07-08 16:18:30 · 10390 阅读 · 0 评论 -
深度学习 BN(Batch Normalization)层的原理介绍
总结:Batch Normalization的引入主要还是为了解决“Internal Covariate Shift”数据分布的改变问题。随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近。所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因,而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个..转载 2020-07-06 14:43:43 · 559 阅读 · 0 评论 -
SVM转化为对偶问题求解的原因
我们使用拉格朗日乘子法可以将原问题转化为对偶问题:KKT条件:一、方便核函数的引入在对偶问题中,需要计算內积<xi,xj><x_i,x_j><xi,xj>。在线性不可分的情况下,我们需要将特征映射到高维特征空间中,使其转化为高维空间线性可分问题。在高维特征空间计算內积是非常困难的,因此可以引用核函数,将高维特征空间的內积用低维空间的核函数表示:二、降低计算复杂度原问题的求解复杂度与特征的维数相关,而转成对偶问题后只与问题的变量个数有关。根据KKT原创 2020-07-05 10:55:14 · 1646 阅读 · 0 评论 -
TDNN—时延神经网络原理
https://blog.csdn.net/richard2357/article/details/16896837原创 2020-06-30 16:20:14 · 2324 阅读 · 0 评论 -
语音识别基本原理
https://www.zhihu.com/question/20398418/answer/167412177先占坑,后续补原创 2020-06-11 09:28:47 · 9664 阅读 · 0 评论 -
高斯混合模型(GMM)公式
https://blog.csdn.net/jinping_shi/article/details/59613054原创 2020-06-29 22:28:09 · 1609 阅读 · 0 评论 -
机器学习评价指标AUC计算公式
1.什么是AUC?AUC(are under curve)是一个模型的评价指标,用于分类任务。那么这个指标代表什么呢?这个指标想表达的含义,简单来说其实就是随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。2.如何计算AUC?方法一在有M个正样本,N个负样本的数据集里。一共有MN对样本(一对样本即,一个正样本与一个负样本)。统计这MN对样本里,正样本的预测概率大于负样本的预测概率的个数。这里第一个条件应该为P转载 2020-06-29 22:22:14 · 3919 阅读 · 1 评论 -
自然语言处理之Attention
深度网络attention泛滥,归根到底就是一个加权求和。https://zhuanlan.zhihu.com/p/59698165原创 2020-06-29 15:04:19 · 157 阅读 · 0 评论 -
自然语言处理之ngram模型
背景介绍N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现原创 2020-06-19 16:45:14 · 1459 阅读 · 0 评论 -
自然语音处理之文本分类(Python)
https://www.cnblogs.com/xiaochi/p/10957729.html贴个python代码:https://github.com/junxincai/ChineseTextClassification先占坑,后续补原创 2020-06-11 09:30:48 · 263 阅读 · 0 评论 -
语音识别之强对齐viterbi算法
https://blog.csdn.net/kamendula/article/details/51568895占坑,后续补内容原创 2020-06-11 09:28:14 · 1715 阅读 · 0 评论 -
传统语音识别(GMM+HMM)
https://www.jianshu.com/p/16fc3712fdf6先占坑,后续补内容原创 2020-06-11 09:27:32 · 282 阅读 · 0 评论 -
语音识别特征提取方法MFCC
https://www.jianshu.com/p/24044f4c3531原创 2020-05-19 09:09:29 · 550 阅读 · 0 评论 -
HMM隐马尔可夫模型原理
https://blog.csdn.net/weixin_41923961/article/details/82750687原创 2020-05-19 09:08:04 · 201 阅读 · 0 评论 -
极大似然估计原理详解
极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: ...转载 2020-04-16 10:05:12 · 3678 阅读 · 0 评论 -
深度学习优化方法:SGD,Momentum,AdaGrad,RMSProp,Adam
1. SGDBatch Gradient Des...原创 2020-04-03 16:49:58 · 253 阅读 · 0 评论 -
如何理解傅里叶变换公式?
这篇文章讲的比较通俗易懂:如何理解傅立叶级数公式?原创 2020-03-31 09:51:44 · 175 阅读 · 0 评论 -
机器学习中梯度下降法和牛顿法的比较
梯度下降法用到一阶导,牛顿法用到二阶导。梯度下降法迭代公式为:θj:=θj−α∂∂θjJ(θj)\theta_j :=\theta_j -\alpha \frac{\partial }{\partial \theta_j } J(\theta_j )θj:=θj−α∂θj∂J(θj),其中α\alphaα为步长,参数往函数极小值的方向前进。牛顿法作者: peghoty出处...原创 2020-03-25 09:41:56 · 138 阅读 · 0 评论 -
方差与偏差
转自:机器学习基础 | 偏差与方差导致偏差和方差的原因偏差通常是由于我们对学习算法做了错误的假设,或者模型的复杂度不够;比如真实模型是一个二次函数,而我们假设模型为一次函数,这就会导致偏差的增大(欠拟合);由偏差引起的误差通常在训练误差上就能体现,或者说训练误差主要是由偏差造成的方差通常是由于模型的复杂度相对于训练集过高导致的;比如真实模型是一个简单的二次函数,而我们假设模型是一...转载 2020-03-24 09:48:18 · 434 阅读 · 0 评论 -
机器学习参数初始化的作用
参数初始化往往是模型训练前比较重要的一步,主要是因为其可以加快梯度下降收敛的速度,并且尽量的使其收敛于全局最优。参数初始化的条件:Glorot条件:优秀的初始化应该保证以下两个条件:各个层的激活值(输出值)的方差要保持一致(前向传播)各个层对输入的梯度的方差要保持一致(反向传播)注意事项:参数不能全部初始化为0,也不能全部初始化同一个值;最好保证参数初始化的均值为0,正负交错,...原创 2020-03-24 09:33:04 · 1746 阅读 · 0 评论 -
GBDT算法原理以及实例理解
这篇博客讲解了GDBT的详细推导过程:GBDT算法原理以及实例理解总结:与Adaboost算法相比,GDBT原理上是利用了负梯度作为残差的近似值,然后将其作为下一轮迭代的预测值,通过构造CART树使其拟合残差,从而达到优化的目的。...转载 2020-03-23 17:22:58 · 287 阅读 · 0 评论 -
机器学习数据预处理之标准化/归一化
一、标准化/归一化的作用1.1 提升模型精度对于某些需要计算距离的模型(如KNN),标准化后可将不同维度的特征用于比较。1.2 提升收敛速度标准化后,在线性模型梯度下降求最优解时更容易收敛。二、常用的方法2.1 StandardScaler标准化数据通过减去均值然后除以方差(或标准差),转化后的数据服从标准正态分布,即均值为0,标准差为1,转化函数为:(x−μ)σ\frac{(x-\...原创 2020-03-23 11:27:24 · 503 阅读 · 0 评论 -
深度学习训练中梯度消失的原因有哪些?有哪些解决方法?
使用了深层网络,当层数越深的时候,梯度将以指数形式传播。在根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时,得到的梯度值接近0,也就是梯度消失。计算权值更新信息的时候需要计算前层偏导信息,如果采用了不合适的损失函数,如sigmoid,则容易发生梯度消失情况。解决方法:预训练+微调。Hinton为了解决梯度的问题,提出采取无监督逐层训练方法,其基本思想是每次训练一层隐...转载 2020-03-08 13:02:28 · 3139 阅读 · 0 评论 -
逻辑回归模型原理与公式推导
逻辑回归的模型:hθ(x)=11+e−θTxh_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}hθ(x)=1+e−θTx1损失函数(目标方程):J(θ)=1m∑i=1mCost(hθ(x(i)),y(i))J(\theta)=\frac{1}{m}\sum_{i=1}^{m}Cost(h_\theta(x^{(i)}),y^{(i)})J(θ)=m1i...原创 2020-03-07 14:44:29 · 681 阅读 · 0 评论 -
牛顿迭代法求某数的开方
给定一个数 nnn,要求 x=nx=\sqrt{n}x=n,可以转化为求函数 f(x)=x2−nf(x)=x^2-nf(x)=x2−n的解。令初始 x0x_0x0=1,利用牛顿迭代法 x(k+1)=x(k)−f(x(k))f′(x(k))=12(x(k)+nx(k))x(k+1)=x(k)-\frac{f(x(k))}{f'(x(k))}=\frac{1}{2}(x(k)+\frac{n}{...原创 2020-03-07 14:44:05 · 229 阅读 · 0 评论 -
XGBoost原理和公式推导
XGBoost的模型: yi^=∑k=1Kfk(xi)\hat{y_i}=\sum_{k=1}^{K}f_k(x_i)yi^=k=1∑Kfk(xi)其中fk∈Ff_k \in Ffk∈F,F=f(x)=wq(x)F=f(x)=w_{q(x)}F=f(x)=wq(x),每个 fkf_{k}fk 对应于一个独立的树结构 qqq 和叶子权重 www。wiw_{i}wi代表第 iii ...原创 2020-03-05 10:11:16 · 900 阅读 · 0 评论 -
sigmoid函数的特性
sigmoid函数的定义域为 (−∞,+∞)(-\infty,+\infty)(−∞,+∞),值域为 (0,1)(0,1)(0,1),表达式为:f(x)=11+e−xf(x)= \frac{1}{1+e^{-x}}f(x)=1+e−x1sigmoid函数的图像为:导数为f′(x)=f(x)∗(1−f(x))f'(x)=f(x)*(1-f(x))f′(x)=f(x)∗(1−f(x))。...原创 2020-03-05 10:08:43 · 1854 阅读 · 0 评论 -
SVM支持向量机公式及核函数
这篇博客支持向量机(SVM)——原理篇对SVM原理讲解的比较透彻,下面是斯坦福大学吴恩达教授的机器学习公开课中的理解。SVM的损失函数:minθC∑i=1m[y(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+12∑i=1nθj2min_\theta C\sum_{i=1}^{m}[y^{(i)}cost_1(\theta^Tx^{(i)})+(1-y^{(i)...原创 2020-03-03 09:44:21 · 454 阅读 · 0 评论 -
L1和L2正则化
正则化是结构风险最小化的实现,是在经验风险上加一个正则化项火惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化就越大。正则化的一般形式:minf∈F1N∑i=1NL(yi,f(xi))+λJ(f){\underset{f\in F}{min}}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)f∈FminN1i=1∑N...原创 2020-03-03 09:43:38 · 130 阅读 · 0 评论