自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 ELS-TWSVM

前述知识:TWSVM LS-TWSVM与TSVM相比,LS-TSVM 的关键优势是 LS-TSVM 是一种非常快速和简单的算法。ELS-TWSVM(基于能量的双最小二乘支持向量机) 的目的是改善 LS-TSVM 的鲁棒性。基于能量的 LS-TSVM 为每个超平面的引入能量的概念来提高其鲁棒性,引入能量后的原始最优化问题为(以其中一个超平面为例):其中另一个超平面的最优化问题类似:将原始最优化问题的等式约束添加到最小化项中得到:求其对...

2022-05-04 18:27:18 336

原创 LS-TWSVM

目录1. 最优化问题2. 求解3. 算法流程在 TWSVM 中,利用拉格朗日乘子构建一个对偶问题并进行求解,但时间开销仍然比较大,对此有人提出了用最小二乘法来求解原始问题,求解之前需要对原始问题做一定的变换,将不等式约束变成等式约束。1. 最优化问题LS-TWSVM 的最优化问题定义如下,以其中一个超平面为例子:该公式的最小化项的首项是正样本点到超平面的距离平方和,等式约束的目的是所有的负样本点到该超平面的距离在 1 附近,最小化公式的第二项就是这个误差的平方...

2022-04-28 19:18:06 589 1

原创 TWSVM

与传统的 SVM 相比,TWSVM 是求解一对非平行的超平面,其中一个超平面离正样本点更近,另一个超平面离负样本点更近;它的模型和 SVM 模型对比结果如下:1. 原始最优化问题TWSVM 分类器是求解如下一对 QPP 方程:1.1 符号说明,是人为调整的超参数;,是正样本的数目,是样本的维数,矩阵意味着所有的正样本点;,是正样本的数目,是样本的维数,矩阵意味着所有的负样本点;是两个超平面的法向量;是两个超平面的常量;是...

2022-04-28 15:43:38 1084

原创 PCA 笔记

一般来说,想要将高维数据转换成低维数据,最简单的是对原始高维空间进行线性变换;给定 d 维空间中的样本,变换后得到维空间中的样本,公式如下:其中是变换矩阵,是样本在新空间中的表达。 变换矩阵 W 可以视作个 d 维基向量。是第 i 个样本与这个基向量分别做内积得到的维属性向量,也就是说是原向量在新坐标系下的坐标向量。 基于线性变换进行降维的方法称作线性降维方法,都符合上述公式的基本形式,但不同之处是对低维子空...

2021-11-09 09:40:20 1031

原创 线性判别分析笔记

LDA 思想为:对给定的训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。 对给定的数据集,令分别表示第类示例的集合、均值向量、协方差矩阵。若将数据投影到直线上,则两类样本的中心点在直线上的投影分别为和;若所有的样本点投影到直线上,则两类样本的协方差分别为和。 对投影结果,应使同类样本的协方差尽可能...

2021-11-05 14:56:09 140

原创 聚类算法笔记

聚类是根据样本之间的特征的相似度或距离,将样本划分到若干类之中,相似度高的在一个类,相似度低的在另一个类。1. 基本概念1.1 相似度给定样本集合X 是一个的矩阵,其中表示第 j 个样本的第 i 维特征值。 聚类的核心概念是相似度,可以用距离来表示两个样本之间的相似度。1.1.1 闵可夫斯基距离 闵可夫斯基距离定义如下表示曼哈顿距离 表示欧式距离 p 取无穷时表示切比雪夫距离1.1.2 马...

2021-11-03 09:27:43 755

原创 利用支持向量机进行癌症分类的基因选择

文献标题:Gene Selection for Cancer Classifification using Support Vector Machines1. SVM 递归特征消除(SVM-RFE) SVM-RFE 是一种以权重大小作为排序标准的 REFE 应用。1.1 算法流程输入:训练样本集初始化:幸存特征子集:特征排序列表:开始循环直到 s = []:限制训练数据集从而得到一个良好的特征指标 采用 SVM 进行分类(对偶方式)获得值 计算...

2021-11-02 07:44:14 1417

原创 提升方法笔记

提升方法在分类问题中通过改变训练样本的权重,学习多个分类器,并将这些分类器线性组合来提高分类的性能。提升方法需要解决一下两个问题:每一轮如何改变训练数据的权值分布 如何将若分类器组合得到一个强分类器 对应的解决方法分别是:提高前一轮弱分类器错误分类样本的权值,降低那些被正确分类样本的权值 加权多数表决,加大分类误差率小的若分类求得权值,减小分类误差率大的弱分类器的权值1. 算法流程1.1 AdaBoost 算法输入:二分类样本训练集:输出:最终分...

2021-11-01 13:57:34 159

原创 支持向量机笔记

SVM 是一种二类分类模型,基本模型是定义在特征空间上的间隔最大的线性分类器(间隔最大区别于感知机,使用误分类最小策略求得超平面),SVM 还可以通过核函数来求解非线性模型。 SVM 的学习策略是间隔最大化,学习算法是求解凸二次规划的最优化算法。SVM 由简到繁的模型如下:线性可分支持向量机(硬间隔) 线性支持向量机(软间隔) 非线性支持向量机(核方法)1. 线性可分SVM与硬间隔最大化 考虑一个二分类问题,假设输入空间与特征空间为两个不同空间,...

2021-10-29 11:04:05 406

原创 朴素贝叶斯笔记

目录1. 原理2. 参数估计2.1 极大似然估计2.2 算法流程2.3 贝叶斯估计 朴素贝叶斯时基于贝叶斯定理与特征条件独立假设的分类方法。对给定的训练集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型对给定的输入 x 利用贝叶斯定理求出后验概率最大的输出 y。1. 原理 假定输入空间是 n 维的向量集合,输出空间为类标记集合。X 是定义在输入空间上的随机向量,Y 是定义在输出空间上的随机变量。P(X, Y) 是 X 和 Y...

2021-10-28 18:47:15 134

原创 k 近邻算法笔记

目录1. 概述2. 模型2.1 距离度量2.2 k 值选择2.3 分类决策规则3. kd 树3.1 构造 kd 树3.2 搜索 kd 树 k 近邻算法是一种基本分类与回归方法。算法的输入为实例的特征向量,即特征空间的点;输出是实例的类别,可以取多类。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式预测,可以看出 k 近邻算法不具有显示的学习过程。k 值的选择,距离度量及分类决策规则是 k 近的三个基本要素。1. 概述输入:...

2021-10-28 16:53:18 342

原创 感知机笔记

感知机是二分类的线性分类模型,属于判别模型。感知机学习目的是求出一个可以将训练数据集线性划分的超平面。其优势在于简单且易于实现;感知机可以分为原始形式和对偶形式,是神经网络与支持向量机的基础。1. 模型1.1 定义 感知机的定义如下:假设输入空间是,输出空间是,x 表示输入空间 X 的实例 ,由输入空间到输出空间的如下函数:称为感知机,叫做权值或权值向量,叫做偏置,表示权值向量和实例向量的一个内积,sign 是符号函数。感知...

2021-10-28 10:35:37 379

原创 模型评估与选择

通常把分类错误的样本数占样本总数的比例称为错误率,精度=1-错误率。更一般的,把学习器在训练集上的误差称为训练误差或经验误差,在新样本上的误差称为泛化误差。我们希望得到的是一个泛化误差小的学习器。学习器学习能力过强会导致泛化性能下降,这就是过拟合;反之,如果学习器不足以很好的学习训练样本就会导致欠拟合。过拟合是无法避免的,只能缓解。1. 评估方法 通常可以通过测试来对学习器的泛化误差进行评估,因此需要测试集,并将其作为训练模型的输入,得到的测试误差来作为泛化误差的近似。...

2021-10-27 14:42:39 408

原创 ID3 和 C4.5 算法

1. ID3 算法1.1 算法流程输入:训练数据集 D,特征集 A , 阈值 d输出:决策树 T如果 D 中所有实例都属于同一类,则 T 为单节点树,并将类别设置为该类,返回 T 如果 A 为空集,则 T 为单结点树,并将 D 中实例数量最多的类设置为该结点的类别,返回 T 计算所有特征的信息增益,选择最大的特征 a 如果 a 的信息增益小于阈值 d,则设置 T 为单节点树,并将 D 中实例数量最多的类设置为该结点得类别并返回 T 对 a 的每一个可能值分割数据集 D 得到子集...

2021-10-26 16:38:21 321

原创 OC1 算法

1. 算法流程 OC1 算法大部分情况下使用确定性爬山来确保计算精度,还使用了两种随机化来避免陷入局部最小值,通过限制随机选择超平面的数量减少运行时间。2. 扰动算法 OC1 算法对超平面的方向没有限制,然而,为了接近标准的决策树算法,超平面首先被设置为该结点上效果最好的轴平行平面(即单变量决策树做出的平面)。OC1 算法只有在斜平面优于单变量平面的情况下才进行。 通过扰动现在的超平面使它偏移来寻找可能的超平面,由于超平面的存在数量是指数级,无法简...

2021-10-22 20:20:31 2011

原创 决策树学习笔记

一、基本流程 一般的,一棵决策树包含一个根结点,若干个内部结点和若干个叶结点;在叶结点给出决策结果,其它结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点之中。从根节点到每个叶结点的路径都对应一个判定的序列。决策树的基本流程遵循简单且直观的“分而治之”策略。输入: 训练集: 属性集:函数 TreeGenerate(D, A)从 A 中选择最优划分属性 ai;for ai 的每一个值 aij do 为结...

2021-10-21 08:29:33 1352

原创 python 标准库 json 应用

在做一个前端项目中需要中国行政区划分的 json 文件,在网上找到一个新版的 json 文件内容大致如下: 需要将每个省市区的 value 字值设置为 label 的值。整体过程如下:1. json导入import jsonwith open('pca-code.json', 'r', encoding='utf-8') as fp: data = json.load(fp)导入后的输出查看 data 是一个列表,分析列表中每个元素的结构:...

2021-10-14 10:55:59 171

原创 机器学习实战笔记——第十三章

一、数据 API 使用tf.data.Dataset.from_tensor_slices 创建一个数据集:dataset = tf.data.Dataset.from_tensor_slices(tf.range(10))print(dataset, tf.range(10))for item in dataset: print(item) 结果如下:from_tensor_slices 该函数创建一个给定张量的切片(沿第...

2021-10-14 09:37:55 607

原创 机器学习实战笔记——第十一章

在实际模型训练中,可能遇到以下问题:梯度消失:随着算法向下传播到较低层,梯度通常会越来越小,低层的连接权重几乎不变导致模型的无法收敛到一个很好的解 梯度爆炸:某些情况下(可能出现在递归神经网络中)梯度会越来越大,各层会产生较大的更新权重,直到算法发散 没有足够的训练数据 训练缓慢 参数过大造成过拟合一、梯度消失与梯度爆炸1.1 Glorot 和 He 初始化 针对梯度不稳定问题,Glorot 提出希望信号流动过程既不消失也不饱和,使得每层的输出方差等于其输...

2021-10-10 11:17:54 2322

原创 机器学习实战笔记——第十章

一、神经网络基础1.1 反向传播训练算法 使用有效技术自动计算梯度下降,针对每个模型参数计算网络误差的梯度,大致流程如下:一次处理一个小批量并多次遍历整个训练集,每次遍历称为一个轮次 每个轮次中,将小批量传入输入层,后将其传入隐藏层,并将隐藏层的输出传入下一个隐藏层直到输出,保留中间结果 (前向通路) 使用一种损失函数来测量网络误差 应用链式法则,计算每个输出连接对错误的贡献程度 再次使用链式法则测量下面层的误差贡献直到输入层,即向后传播误差梯度 (后向) 执行梯度下降...

2021-10-08 20:51:54 1125

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除