机器学习
CurryCoder
个人微信公众号:CurryCoder的程序人生
技术交流QQ群:1027579432
所有代码在此https://github.com/cdlwhm1217096231,欢迎各位小伙伴star、follow、fork
个人主页:https://cdlwhm1217096231.github.io/
展开
-
集成学习Bagging和Boosting算法总结
一、集成学习综述集成方法或元算法是对其他算法进行组合的一种方式,下面的博客中主要关注的是AdaBoost元算法。将不同的分类器组合起来,而这种组合结果被称为集成方法/元算法。使用集成算法时会有很多的形式,如:不同算法的集成同一种算法在不同设置下的集成数据集不同部分分配给不同分类器之后的集成AdaBoost算法优缺点优点:泛化错误率低,易编码,可以应用在大部分分类器...原创 2019-03-07 15:20:42 · 1463 阅读 · 0 评论 -
从LSTM到GRU基于门控的循环神经网络总结
1.概述为了改善基本RNN的长期依赖问题,一种方法是引入门控机制来控制信息的累积速度,包括有选择性地加入新的信息,并有选择性遗忘之前累积的信息。下面主要介绍两种基于门控的循环神经网络:长短时记忆网络和门控循环单元网络。因为基本的RNN即ht=f(Uht−1+Wxt+b)\mathbf{h}_{t}=f\left(U \mathbf{h}_{t-1}+W \mathbf{x}_{t}+\math...原创 2019-07-05 16:35:34 · 4914 阅读 · 3 评论 -
神经网络中的批量归一化Batch Normalization(BN)原理总结
0.概述在深层神经网络中,中间层的输入是上一层神经网络的输出。因此,之前的层的神经网络参数的变化会导致当前层输入的分布发生较大的差异。在使用随机梯度下降法来训练神经网络时,每次参数更新都会导致网络中每层的输入分布发生变化。越是深层的神经网络,其输入的分布会改变的越明显。从机器学习角度来看,如果某层的输入分布发生了变化,那么其参数需要重新学习,这种现象称为内部协变量偏移。解决方法:为了解决内...转载 2019-07-10 22:47:59 · 4813 阅读 · 0 评论 -
常见的数据预处理方法总结
0.概述一般而言,样本的原始特征中的每一维特征由于来源以及度量单位不同,其特征取值的分布范围往往差异很大。当我们计算不同样本之间的欧氏距离时,取值范围大的特征会起到主导作用。这样,对于基于相似度比较的机器学习方法(比如最近邻分类器KNN),必须先对样本进行预处理,将各个维度的特征归一化到同一个取值区间,并且消除不同特征之间的相关性,才能获得比较理想的结果。虽然神经网络可以通过参数的调整来适应不...转载 2019-07-11 10:20:50 · 5642 阅读 · 0 评论 -
复习03统计学习方法(K近邻KNN)---图片版
原创 2019-08-02 16:34:34 · 242 阅读 · 0 评论 -
常见的距离函数总结
1.距离函数总结闵可夫斯基距离:给定样本x→i=(xi,1,xi,2,⋯ ,xi,n)T\overrightarrow{\mathbf{x}}_{i}=\left(x_{i, 1}, x_{i, 2}, \cdots, x_{i, n}\right)^{T}xi=(xi,1,xi,2,⋯,xi,n)T,x→j=(xj,1,xj,2,⋯&ThinSpa...原创 2019-08-01 14:57:56 · 3239 阅读 · 0 评论 -
复习01统计学习方法(机器学习中的重要概念)---图片版
原创 2019-07-27 22:29:05 · 265 阅读 · 0 评论 -
复习02统计学习方法(感知机perceptron machine)---图片版
原创 2019-07-27 22:59:49 · 293 阅读 · 0 评论 -
神经网络中参数量parameters和FLOPs计算
一、CNN中parameters和FLOPs计算CNN中的parameters分为两种:W和b,对于某一个卷积层,它的parameters的个数为:(Kh∗Kw∗Cin)∗Cout+Cout\left(K_{h} * K_{w} * C_{i n}\right) * C_{o u t}+C_{o u t}(Kh∗Kw∗Cin)∗Cout+Cout其中,KhK_{h}Kh是卷...原创 2019-07-28 10:23:15 · 4620 阅读 · 0 评论 -
复习04统计学习方法(朴素贝叶斯算法Naive Bayes)---图片版
原创 2019-08-09 11:52:54 · 272 阅读 · 0 评论 -
复习05统计学习方法(决策树算法Decision Tree)---图片版
原创 2019-08-09 11:53:47 · 259 阅读 · 0 评论 -
复习06统计学习方法(Logistic回归与最大熵模型)---图片版
原创 2019-08-09 11:54:55 · 237 阅读 · 0 评论 -
神经网络中的权重初始化常用方法
1.权重初始化的重要性神经网络的训练过程中的参数学习时基于梯度下降算法进行优化的。梯度下降法需要在开始训练时给每个参数赋予一个初始值。这个初始值的选取十分重要。在神经网络的训练中如果将权重全部初始化为0,则第一遍前向传播过程中,所有隐藏层神经元的激活函数值都相同,导致深层神经元可有可无,这一现象称为对称权重现象。为了打破这...转载 2019-07-04 22:40:50 · 2404 阅读 · 0 评论 -
GBDT算法原理及实战(转载)
1.博客原文GBDT算法原理以及实战转载 2019-05-29 23:07:21 · 614 阅读 · 0 评论 -
卷积神经网络理解及1*1卷积核的作用
一. 单通道图像的卷积计算过程下面各图中所有数学符号的说明如下:n:图片的宽度和高度n_c:表示图片的通道数f: 过滤器的尺寸大小m: 过滤器的数量Q: 卷积运算后的输出图像的尺寸大小p:所要填充的像素值,padding=0称为Valid Convolution;为了得到与原始输入图像相同尺寸的输出图像而加入的padding,称为Same Convolutions:卷积步...原创 2019-03-07 15:22:59 · 1640 阅读 · 0 评论 -
机器学习中的均方根误差、均方误差、平均绝对误差、L1、L2范数介绍
1.均方根误差RMSE:计算平方和的根,测量预测向量与目标值向量之间的距离,又称为欧几里得范数,L2范数2.平均绝对误差MAE:计算绝对值的总和,对应于L1范数,又称为曼哈顿距离3.包含n个分量的向量Vk的范数定义为如下所示:0范数仅给出向量的基数即元素的数量无穷大范数给出向量中的最大绝对值...原创 2019-03-12 09:15:48 · 9025 阅读 · 0 评论 -
机器学习中的训练集 验证集 测试集的关系
1.划分测试集目的为了了解一个模型对新样本的泛化能力,唯一的办法是:让已经训练好的模型真正的处理新的样本。解决方法: 将原始数据划分成两个部分:训练集 测试集。可以使用训练集来训练模型,然后用测试集来测试模型。通过测试集来评估模型,可以了解模型的泛化误差。如果训练误差很低,但是泛化误差很高,说明模型对于训练数据已经过拟合了。一般将原始数据集划分为70%的训练集,30%的测试集合。2....原创 2019-03-12 09:16:58 · 1096 阅读 · 0 评论 -
XGBoost算法原理解释(转载)
参考博客参考文章1参考文章2转载 2019-04-25 22:12:11 · 346 阅读 · 0 评论 -
Apriori算法进行关联分析实战
使用Apriori算法进行关联分析(层次聚类)一、基础知识1.关联分析定义及存在的问题定义:从大规模的数据集中寻找物品间的隐含关系,被称为关联分析或关联规则学习。关联分析存在的主要问题:主要问题在于寻找不同物品的组合是一项很耗时的任务,所需要的计算代价很高,暴力方法无法解决这个问题,所以使用更加合理的方法在合理的时间范围内找到频繁项集。2.Apriori算法的优缺点及适用场合...原创 2019-05-19 15:12:49 · 2302 阅读 · 0 评论 -
利用PCA进行数据降维
一、进行数据降维的原因1.使得数据更加容易使用2.降低很多算法的计算开销3.去除数据中的噪声(例如使用自编码器AE可以给图片进行降噪处理)-4.便于可视化二、常见的降维技术在已标注和未标注的数据上都有降维技术。下面主要关注未标注数据上的降维技术,此技术也可以使用在已标注的数据上。1.主成分分析PCA:在PCA中,数据从原来的坐标系中转换到新的坐标系中,**新的坐标系的选择是由数...原创 2019-05-19 17:14:55 · 1535 阅读 · 0 评论 -
利用矩阵奇异值分解(SVD)进行降维
一、SVD的优缺点及应用场合1.优点:简化数据,去除噪声,提高算法的结果2.缺点:数据的转换可能难以理解3.适用场合:数值型数据二、SVD算法应用的场合SVD是矩阵分解的一种类型,而矩阵分解是将数据矩阵分解成多个独立部分的过程。1.隐性语义分析LSA最早的SVD应用之一是信息检索,称为利用SVD的方法为隐性语义分析。在LSA中,一个矩阵是由文档和词语组成的。当在此矩阵上应用S...原创 2019-05-20 17:45:52 · 8246 阅读 · 1 评论 -
机器学习中分类器常见评价指标
为了衡量一个机器学习模型的好坏,需要给定一个测试集,用模型对测试集中的每个样本进行预测,并根据预测结果计算评价分数。对于分类问题,常见的评价指标有正确率、召回率、F值等。给定测试集T=(x(1)^{(1)}(1), y(1)^{(1)}(1)), …, (x(N)^{(N)}(N), y(N)^{(N)}(N)),假设标签y(n)^{(n)}(n) ∈\in∈{1, 2, …, C},用学习好的...原创 2019-05-23 17:06:45 · 1209 阅读 · 0 评论 -
机器学习中的交叉验证与有关定理
1.交叉验证简单交叉验证:随机的将样本数据分为两部分(比如:70%的训练集,30%的测试集),然后用训练集来训练模型,在测试集上验证模型及参数。接着,再把样本打乱,重新选择训练集和测试集,继续训练数据和检验模型。最后选择损失函数评价最优的模型和参数。K折交叉验证(Cross Validation):是一种比较好的可能衡量机器学习模型的统计分析方法,可以有效避免划分训练集和测试集时的随机性对评...原创 2019-05-23 17:38:31 · 516 阅读 · 0 评论 -
复习07统计学习方法(支持向量机SVM)---图片版
原创 2019-08-09 11:55:39 · 279 阅读 · 0 评论