机器学习
chiyustory
一直在进步
展开
-
线性回归算法
1. 算法思想 寻找使计算误差最小的拟合曲线,可基于梯度下降算法对最小二乘形式的损失函数进行优化,最终获得模型回归系数(w、b)。优点:计算简单;缺点:不能拟合非线性数据;2. 代码实现1. 采用的数据集是UCI鲍鱼年龄预测数据集2. 损失函数是均方差损失,优化算法是随机梯度下降算法。import numpy as npimport matplotlib...原创 2018-07-31 10:48:56 · 266 阅读 · 0 评论 -
神经网络参数的各种初始化算法
本文所采用的数据集为UCI 鲍鱼年龄预测数据集,网络模型为8层的全连接神经网络。1. 实验步骤:a. 基于不同的权重初始化方式初始化各层权重;b. 以直方图的形式查看每层输入给激活函数(线性运算后)的数据分布;2. 正态分布初始化权重a. 权重更新weight = np.random.randn(in_node, out_node)使用默认的均值和方差b. 实...原创 2018-08-06 17:51:51 · 4710 阅读 · 0 评论 -
ELM算法
1. ELM算法思想前馈神经网络的学习速度一般比较慢,这是近几十年来应用神经网络的一个主要瓶颈问题。其背后的两个关键原因可能是:(1) 基于梯度下降的优化神经网络;(2)对网络的所有参数进行迭代调整。极限学习机与传统的学习算法不同,它随机选择隐藏节点、随机确定隐层权重参数和偏差,以解析计算的方式确定输出层权值。理论上,该算法以极快的学习速度提供了良好的泛化性能。在实际应用中,该算法在大多数情...原创 2019-01-17 09:23:03 · 8354 阅读 · 0 评论 -
PCA算法
1. PCA算法思想在数据预处理过程中,为了降低计算计算复杂度,可删除相关性较大的特征,从而可以不用丢失太多的信息。通过基变换,将数据投影到新的坐标中,即可获得全新的K个正交特征。2. 推导过程⑴给出不同的基可以对同一组数据给出不同的表示,当基的维数小于数据的特征数时,则实现了数据降维。⑵为了保留更多的信息,需寻找最优基。(保留更多的信息,令每个基上的投影方差最大;新特征彼此...原创 2018-11-02 22:05:26 · 2245 阅读 · 0 评论 -
AdaBoost算法
1. 算法思想 基于串行集成的策略,加权综合考虑各个基分类器预测的结果,获得最终的预测结果。通俗讲就是,“三个臭皮匠,顶一个诸葛亮”,为每个人的建议设置一个权值,各抒己见,最后综合计算合理的答案。 首先,初始化所有样本的权重都相同,基于基分类器预测此数据集在权重分布下的预测结果;然后,根据此基分类器的预测结果和真实标签计算此时的分类错误率,并依据分类错误率继续计算此基...原创 2018-11-13 17:07:21 · 354 阅读 · 0 评论 -
AdaBoost.M1算法
1. 算法思想 AdaBoost.M1算法是基于AdaBoost算法的一个改进版本,当然还有第二个,称之为AdaBoost.M2算法,两种算法详情请参阅论文《Experiments with a New Boosting Algorithm》。 最早的AdaBoost算法是一种二分类算法,类标签为{+1,-1},该算法计算基分类器的分类误差率和权重参数都是基于此...原创 2018-11-14 10:16:56 · 5719 阅读 · 4 评论 -
K-Means算法
1. 算法思想 K-Means算法,也称为K-均值算法,是一种无监督算法,即数据集无标签。一般做法是,往往先对数据进行聚类,根据聚类结果将每个簇定义为一个类,然后再基于这些类训练分类模型,输入测试样本判断类别。 聚类就是将数据集中的样本划分到指定数量的互不相干的子集中,每个子集就是一个簇。2. 算法流程 ...原创 2018-11-18 22:21:30 · 393 阅读 · 0 评论 -
KNN算法
1. 算法思想 首先,通过计算测试样本到各个训练样本的距离,距离的度量方式有多种选择;然后,取和测试样本最近的k个训练样本的标签,哪个类的训练样本最多,则测试样本就属于此类。优点 思想简单;不需要训练过程;适合多分类问题缺点 当训练样本较多时,计算复杂度较高;2. 算法步骤 1.计算测试样本到各训练样本的欧式距离...原创 2018-05-07 16:16:03 · 637 阅读 · 0 评论 -
神经网络算法(基于Tensorflow、基于Python实现BP)
1. 算法思想 神经网络可分为两个过程,前向传播和反向传播过程。前向传播是对线性结果的非线性转化,获得映射关系,此非线性映射关系可依据层数的增加而累加;反向传播是对前向传播结果的误差进行修正,依据各种类型的梯度下降算法更新梯度,使得前向传播的结果能更接近真实值。2. 优点a. 由于其非线性映射能力,所以处理非线性的数据集;b. 由于其依据反向传播过程可自动提取出数据...原创 2018-06-28 21:58:14 · 8599 阅读 · 1 评论 -
LR算法
1. 算法思想 逻辑回归算法(Logistic Regression,LR)是一种二分类算法,决策函数由条件概率分布P(Y|X)表示。其将线性回归的运算结果通过Sigmoid函数进行非线性映射到[0,1]区间的值,即以概率的形式表示预测类别。所以,当线性函数运算的结果越大,则P越接近1;当线性运行的结果越小,则P越接近0。 当然,可将LR算法推广至多分类,一般称为多...原创 2018-12-03 15:31:21 · 5432 阅读 · 0 评论