机器学习理论
文章平均质量分 65
象牙塔小明
机器学习
Python/Tensorflow/Spark/Scala
展开
-
为什么需要将数据集划分成训练集、验证集和测试集三部分?
评估模型的重点是将数据划分为三个集合:训练集、验证集和测试集。在训练数据上训练 模型,在验证数据上评估模型。一旦找到了最佳参数,就在测试数据上最后测试一次。你可能会问,为什么不是两个集合:一个训练集和一个测试集?在训练集上训练模型,然后在测试集上评估模型。这样简单得多!原因在于开发模型时总是需要调节模型配置,比如选择层数或每层大小[这叫作模型的超 参数(hyperparameter),以便与模型参数(即权重)区分开]。这个调节过程需要使用模型在验 证数据上的性能作为反馈信号。这个调节过程本质上就是一种学原创 2021-02-27 12:36:26 · 11994 阅读 · 2 评论 -
sklearn与机器学习系列专题之降维(二)一文弄懂LDA特征筛选&降维
目录1.PCA算法优缺点2.LDA算法简介3.枯燥又简洁的理论推导4.python实战LDA5.下篇预告1.PCA算法优缺点在上一篇推文中,我们详解了PCA算法。这是机器学习中最为常用的降维方法,能降低算法的计算开销,使得数据集更容易处理,且完全无参数的限制。但是,如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却很难按照预想的方法对处理过程进行干预,可能达不到预期的效果,在非高斯分布的情况下,PCA方法得出的主元可能也并不是最优的。2.LDA算法简介这时候,就要线性判别分析降维(Line转载 2020-11-14 23:05:31 · 947 阅读 · 0 评论 -
sklearn与机器学习系列专题之降维(一)一文弄懂PCA特征筛选&降维
伴随着通信与互联网技术的不断发展,人们收集和获取数据的能力越来越强,而这些数据已呈现出维数高、规模大和结构复杂等特点,当数据量非常大时,会面临维度灾难,即:1.在高维情况下,数据样本稀疏;2.涉及距离、内积的计算变得困难。缓解灾难的一个重要途径就是降维。本篇博客主要以PCA为例,讲解sklearn实现降维。1.标准PCA如下图所示,我们用两个特征——一个是attack、一个是defense来描述样本。作两条垂直的参考线,方差相差很大。在方差较大的方向上,所包含的信息就较多。降维要尽可能保持原始数据的转载 2020-11-14 22:32:14 · 647 阅读 · 0 评论 -
机器学习sklearn数据预处理:归一化-标准化/区间缩放-调整尺度/正态化
在sklean的预处理方法中主要有三种,每一种都有函数方法和类方法两种使用方法:归一化-标准化:normalize()函数/Normalizer()类区间缩放-调整尺度: minmax_scale函数/MinMaxScaler()类正态化:scale()函数/StandardScaler()类归一化/标准化处理将每一行数据的向量模长(欧氏距离)处理成1.方法一:normalize()...原创 2019-12-03 16:06:57 · 2349 阅读 · 0 评论 -
机器学习优秀博客推荐
线性回归(Linear Regression)转载 2019-07-12 17:57:43 · 308 阅读 · 0 评论 -
(四)机器学习——支持向量机
https://blog.csdn.net/sinat_20177327/article/details/79729551原创 2018-11-13 16:20:37 · 185 阅读 · 0 评论 -
(三)机器学习——感知机模型(附完整代码)
感知机是这一种二类线性分类模型,其输入实例的特征向量,输出为实例的类别,取+1和-1二值。感知机模型和LR模型(https://blog.csdn.net/u014571489/article/details/83387681) 一样都是二分模型,但是目标函数(损失函数)不一样。...原创 2018-11-07 20:51:41 · 2342 阅读 · 0 评论 -
(二)逻辑回归的扩展——多线性分类Softmax Regression算法模型(附代码)
前言在上一篇逻辑回归(https://blog.csdn.net/u014571489/article/details/83387681)中已经讲到了为什么有sigmoid激活函数、极大似然估计法和梯度下降法等。当逻辑回归问题被扩展到多线性分类问题时,第一步要解决的还是计算概率的问题,即该点属于每个类别的概率是多少,选择概率最大的类为该点所在的类。然后根据概率计算公式构建目标函数,然后用梯...原创 2018-11-01 17:31:14 · 537 阅读 · 0 评论 -
(一)机器学习——逻辑回归(附完整代码和数据集)
什么是逻辑回归?首先逻辑回归是一种分类算法。逻辑回归算法和预测类算法中的线性回归算法有一定的类似性。简单来讲,逻辑回归,就是通过回归的方法来进行分类,而不是进行预测,比如预测房价等。逻辑回归解决的问题先看下面的图,已知平面上分布的红点和蓝点,逻辑回归算法就是解决怎么根据一系列点,计算出一条直线(或者是平面)将平面上的点分成两类,一般的解决方法就是建立一个数学模型,然后通过迭代优化得到一个最优...原创 2018-10-29 18:45:53 · 11545 阅读 · 3 评论 -
学习速率选择
梯度下降法是机器学习中常用的方法,而学习速率(步长)的选择对收敛有很大的影响。学习速率太大,可能导致震荡甚至不能收敛,学习速率太小,导致收敛太慢。所以选择学习速度(步长)时,可以按照如下数列一次选择进行调参。数列:0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1。也就是从0.001一来,依次增大三倍。...原创 2018-09-28 15:38:39 · 2282 阅读 · 0 评论 -
非确定性(Non-Deterministic)问题、NP问题、P问题
什么是非确定性(Non-Deterministic)问题呢?有些计算问题是确定性的,比如加减乘除之类,你只要按照公式推导,按部就班一步步来,就可以得到结果。但是,有些问题是无法按部就班直接地计算出来。比如,找大质数的问题。有没有一个公式,你一套公式,就可以一步步推算出来,下一个质数应该是多少呢?这样的公式是没有的。再比如,大的合数分解质因数的问题,有没有一个公式,把合数代进去,就直接可以算出,它的...原创 2018-09-09 17:48:46 · 9442 阅读 · 1 评论