机器学习
文章平均质量分 82
Asita_c
属实被自己菜哭了
展开
-
SMO算法数学推导
书接上回:支持向量机(SVM)数学推导学习笔记将SVM寻找找超平面的问题转换其对偶问题为:L=maxα∑i=1nαi−12∑i=1n∑j=1nαiαjyiyjxiTxjs.t.∑i=1nαiyi=0,ai≥0L=\max_\alpha\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j\\s.t. \hspace{0.3mm}\sum_{i=1}^n\alpha_iy_i=0,a_原创 2022-10-15 15:02:20 · 605 阅读 · 0 评论 -
《最优化方法》拉格朗日对偶及KKT条件学习笔记
拉格朗日对偶经常被用来求解最优化问题,而机器学习的背后都是优化问题。SVM训练时,求解的原问题是一个凸优化问题,经过拉格朗日对偶变换后,可以将目标函数转化为凸函数。对偶,是解决最优化问题的一种常用的手段。它能够将一个最优化问题转化成另一个更容易求解的对偶问题。(最优拉格朗日乘子),若此对偶问题的全局(局部)对应的最优解为。满足强对偶时,可以通过求解对偶问题的解来得到原始问题的解。对于原问题为凸问题,KKT条件是。在原问题是凸问题的情况下,若。取最小值,求出极小值点带入。原创 2022-10-13 14:37:23 · 1469 阅读 · 0 评论 -
支持向量机(SVM)数学推导学习笔记
在机器学习中,支持向量机是在分类问题和回归问题中常用的监督式的机器学习算法。在n维欧式空间中,找到一个最佳的超平面,把数据分为两类,使得每个类到超平面的距离最远。给定数据集D={(x1,y1),(x2,y2),…,(xn,yn)}D=\{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}D={(x1,y1),(x2,y2),…,(xn,yn)},其中,x∈Rn,y∈{−1,+1}x\in R^n,y\in\{-1,+1\}x∈Rn,y∈{−1,+1}类似二维空间中直线原创 2022-10-04 18:35:59 · 1090 阅读 · 0 评论 -
One class learning(SVDD)
常见的分类问题分为二分类和多分类,而多分类可以拆解为多个二分类问题。在二分类问题中,分类器对一个的样本的判断为非正即负,分类结果一定是二者之一。理想情况下,二分类中的每类样本数据要求巨大且相等。但是在现实世界却往往是相反的,在二分类问题中,正负类样本可能是严重失衡,这种情况也有解决的办法,那就是不平衡性学习。而考虑到极端情况,某一类样本少到几乎没有,但是又及其重要时应该如何分类?这就出现了 one class classification。仅有一类样本用于训练,而其他类别总称为(outlier)信息缺失原创 2022-09-30 22:15:56 · 1722 阅读 · 0 评论 -
成功找到ModuleNotFoundError: No module named ‘sklearn.ensemble.weight_boosting‘的解决方法
成功解决ModuleNotFoundError: No module named 'sklearn.ensemble.weight_boosting'原创 2022-09-19 16:01:56 · 1593 阅读 · 0 评论 -
boost大家庭
原创 2022-05-03 23:45:39 · 833 阅读 · 0 评论 -
数据归一化/标准化
什么是归一化把预处理的数据映射到 [0,1][0,1][0,1] 或 [−1,1][-1,1][−1,1] 之间的小数来处理。为什么要归一化维基百科的解释:1. 归一化后加快了梯度下降求最优解的速度;如果不进行归一化,由于特征向量中不同特征的取值相差较大,会导致目标函数变“扁”。这样在进行梯度下降的时候,梯度的方向就会偏离最小值的方向,走很多弯路,即训练时间过长。如果进行归一化以后,目标函数会呈现比较“圆”,这样训练速度大大加快,少走很多弯路。2. 归一化有可能提高精度;归一化不同量纲的原创 2022-04-18 13:15:51 · 711 阅读 · 0 评论 -
《机器学习》------模型评价指标
错误率(error rate):分错样本占总样本的比例;对于数据集 DDD,分类错误率定义为:E(f;D)=1m∑i=1mI(f(xi)≠yi)E(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(x_i)\neq y_i)E(f;D)=m1i=1∑mI(f(xi)=yi)精度(accuracy):精度 = 1 - 错误率精度的定义为:acc(f,D)=1m∑i=1mI(f(xi)=yi)=1−E(f;D)\begin{aligned}acc(f,D)原创 2022-04-12 16:56:35 · 1134 阅读 · 0 评论 -
【论文阅读笔记】基于分类器预测置信度的集成选择| Ensemble Selection based on Classifier Prediction Confidence
Ensemble Selection based on Classifier Prediction Confidence | 基于分类器预测置信度的集成选择[Abstract]集成选择是集成学习中研究最多的课题之一,因为选择基分类器的子集可能优于整个集成系统。近年来,引入了许多集成选择方法。然而,其中许多方法都缺乏灵活性:要么为所有测试样本预先选择一个固定的分类器子集(静态方法),要么分类器的选择取决于定义能力区域技术的性能(动态方法)。本文提出了一种综合考虑分类时各基分类器置信度(confidence原创 2022-03-19 22:18:04 · 1713 阅读 · 2 评论 -
《深度学习》------生成对抗网络(GAN)学习笔记
1.生成对抗网络的(GAN)的原理GAN的思想:一种二人零和博弈思想(two-player game),博弈双方的利益之和是一个常数。就像电影《猫鼠游戏》,生成网络G可以被看做是假支票的制造者,他们试图制造假支票并且在不被发现的情况下使用,而辨别网络类似于警察,他们试图检测假支票。这个游戏中的竞争促使两个团队改进他们的方法,生成对抗网路(GAN)分为两个部分:生成网络G(Generator)和判别网络D(Disciminator)(1)生成网络G:生成器,负责生成假数据(2)辨别网络D:辨原创 2022-01-21 19:46:21 · 4181 阅读 · 0 评论 -
《机器学习》------AdaCost学习笔记
Adacost 是Adaboost算法的变种目前的分类算法大多都强调准确率,但对于我们实际研究的问题来说可能不是特别的符合。例如:在1000个人中,有10个人得癌症,一般的非代价敏感(Non Cost-Sensitive)学习算法可能会把几乎所有人都分为“健康”的这一类,虽然这样做的准确率很高,但是对于我们研究的问题来说(找出患病的人),却是无意义的。并且,把癌症患者误诊为健康者,让患者错过最佳治疗时间,这样的代价是极其高昂的,远大于把健康者误诊为癌症患者的代价。因此,引入代价敏感(Cost-Sens原创 2021-12-21 23:03:11 · 3200 阅读 · 0 评论 -
《机器学习》------实验五(综合实验)
实验内容:使用CTG数据将胎儿的健康分为正常,可疑或病理性。数据描述:对胎儿健康进行分类,以防止儿童和产妇死亡。降低儿童死亡率反映在联合国的若干可持续发展目标中,是人类进步的关键指标。联合国预计,到2030年,各国将结束可预防的5岁以下新生儿和儿童的死亡,所有国家都力争将5岁以下儿童的死亡率降低到至少每1000活产25人。与儿童死亡率的概念平行的当然是孕产妇死亡率,其占妊娠和分娩期间和之后(截至2017年)的295 000例死亡。这些死亡中的绝大多数(94%)发生在资源贫乏的地区,大多数可以预防。原创 2021-12-12 00:51:09 · 6896 阅读 · 6 评论 -
《机器学习》------实验四(k-means聚类)
实验内容:1.复现,K-means的两个案例:iris和基于经纬度的城市聚类。2.对于给定的项目,自行编写程序,使用K-means算法不同含量果汁饮料的聚类:某企业通过采集企业自身流水线生产的一种果汁饮料含量的数据集,来实现K-Means算法。通过聚类以判断该果汁饮料在一定标准含量偏差下的生产质量状况,对该饮料进行类别判定。加载数据集,读取数据,探索数据。样本数据转化(可将pandasframe格式的数据转化为数组形式),并进行可视化(绘制散点图),观察数据的分布情况,从而可以得出k的几种可能取原创 2021-11-28 16:37:02 · 5989 阅读 · 4 评论 -
《机器学习》------实验三(决策树)
决策树相关知识在之前《机器学习—决策树笔记》中已提到:https://blog.csdn.net/Naruto_8/article/details/120931619实验内容:对于给定的例题,基于决策树分类算法进行鸢尾花分类的练习。回顾课程内容,掌握决策树的核心知识点和三种经典算法。在熟悉原理的基础上,复现iris示例,了解每一部分代码的具体作用。将实验结果展示在报告中。在步骤2的基础上,自己编写程序,使用决策树分类算法实现两个实例:(1)威斯康星乳腺癌数据集(2)顾客购买服装数据集进行分原创 2021-11-24 16:00:13 · 5257 阅读 · 1 评论 -
《机器学习》------实验一(回归)
问题一:对于线性回归问题,给定:w0∗=(1n∑iyi)−w1∗(1n∑ixi)(1)\begin{aligned}\mathbf{w^*_0}&=\left(\frac{1}{n}\sum_iy_i\right)-\mathbf{w_1^*}\left(\frac{1}{n}\sum_ix_i\right) \\\end{aligned}\tag{1}w0∗=(n1i∑yi)−w1∗(n1i∑xi)(1)w1∗=−∑ixi(w0∗−yi)/∑ixi2(2)\begin原创 2021-11-11 15:35:48 · 4636 阅读 · 0 评论 -
课程笔记之《论文写作》
今天听见了实验室的师兄发表了一篇 TransTransTrans ,哇,那叫一个劲的羡慕啊,光羡慕不管用啊,得实干才行呀。目前研一,尚未开启paper maker 之路,感觉已经落后了好多呀,不过斗志似乎被点燃了。俗话说,搞计算机的,都卷一点,不寒碜。因此,论文虽还没有写,但东西(笔记)得先准好,磨刀不误砍柴工嘛。此帖是关于老板讲的论文写作这门课进行笔记梳理,一来是给大家做一个分享,二是在自己写论文的时候就可以回来重温一下笔记,尽量避免踩坑哇。这是老板的博客 https://blog.csdn.net原创 2021-11-03 15:35:24 · 1281 阅读 · 0 评论 -
机器学习---基本术语
目前是自学机器学习,一些基本的概念从西瓜书中摘录1、基本术语数据集(data set) :数据的集合数据集中的一个记录或描述称为“示例”、“样本”(instance)属性或特征:反映事件或对象某方面的特征或表现 (feature)属性空间:属性张的空间 (attribute space)一个示例为样本空间中的一个点,因此一个示例也称为“特征向量” (feature vector)维度:一般地,令 D={x1,x2,...,xm}D = \{\bm{x_1,x_2,...,x_m }\}D=原创 2021-10-28 00:43:44 · 978 阅读 · 0 评论 -
机器学习---线性模型
本帖为学习笔记帖,参照b站解读西瓜书、西瓜书来记的,如有错误,欢迎批评指正。基本形式(西瓜书上的)给定由 ddd 个属性描述的示例 x=(x1,x2,...,xd)x=(x_1,x_2,...,x_d)x=(x1,x2,...,xd),其中 xix_ixi 是 xxx 在第 iii 个属性上的取值,线性模型(Linear model)试图学得一个属性的线性组合来进行预测函数,即f(x)=w1x1+w2x2+...+wdxd+bf(x)=w_1x_1+w_2x_2+...+w_dx_d+bf(原创 2021-10-25 17:54:26 · 295 阅读 · 1 评论 -
机器学习---决策树笔记
本帖为学习笔记帖,参照b站解读西瓜书来记的,如有错误,欢迎批评指正。在了解决策树之前,一些概念需要知道:Question1:什么是信息熵?熵:对一种事物的不确定性叫做熵,或者说混乱程度。信息:消除不确定性的事物调整概率排除干扰确定情况噪音:不能消除不确定性的事物数据=信息+噪音信息熵(information entropy):是度量样本集合纯度最常用的一种指标。Question2:熵如何量化?参照一个不确定的事件作为单位:如抛硬币,我的不确定性相当于抛几次的硬币的不确定性。如原创 2021-10-24 18:49:42 · 1986 阅读 · 0 评论 -
《机器学习》------Adaboost学习笔记
b站原视频链接原作cdsn链接1、First, What is ensemble learning?包含许多算法如:决策树、SVM、神经网络;为了解决特定的机器学习问题,有策略性地生成和组合多个模型分类器的Combiner:motivation:提高模型的效果、减少不良模型选择的可能性;Bagging 、Boosting ;Bagging 、Boosting 在机器学习中的位置:2、How to combine the outputs classifiers?每个分类器的一定是不一原创 2021-10-22 08:49:56 · 444 阅读 · 0 评论 -
魔鬼训练第五天作业
老师原文链接:14. 决策表 14.5 作业写出本例中的 U,C,D\mathbf{U},\mathbf{C}, \mathbf{D}U,C,D 和 V\mathbf{V}V. 注:最后两个是决策属性.定义一个标签分布系统, 即各标签的值不是 0/1, 而是 [0,1][ 0 , 1 ][0,1] 区间的实数, 且同一对象的标签和为 1.U={x1,x2,x3,x4,x5,x6,x7}\mathbf{U}=\{x_1,x_2, x_3, x_4, x_5, x_6, x_7\}U={x1原创 2021-08-03 19:15:34 · 287 阅读 · 0 评论 -
魔鬼训练第三天作业
老师原文链接:8. 累加、累乘与积分 4.6 作业将向量下标为偶数的分量 (x2, x4, …) 累加, 写出相应表达式.各出一道累加、累乘、积分表达式的习题, 并给出标准答案.你使用过三重累加吗? 描述一下其应用.给一个常用的定积分, 将手算结果与程序结果对比.1、∑xi%2=0xi\sum\limits_{x_i \%2=0}x_ixi%2=0∑xi.2、 1.将矩阵X\mathbf{X}X的下三角分量累加.X=[853613851053245432]\mathbf{X} .原创 2021-07-28 14:27:46 · 318 阅读 · 0 评论 -
魔鬼训练第一天作业
1.6 描述你在学习、使用数学表达式时的困难, 可举例说明.从之前闵老师讲离散数学才开始真正接触到数学表达式。今天的课程闵老师系统地讲述了为什么要有数学表达式,以及数学表达式的规范。在接触到数学表达式的时候,正如闵老师所说,有些畏惧,心想:光是看到如此多、复杂的表达式就有点头大了,何况以后还要自己书写表达式,并且在论文中做到从一而终,最终形成自己的风格。这是对于目前尚未入门初学者的自己需要一步一步达到的目标吧。目前在使用数学表达式的困难最首要的还是不知道公式代码如何书写,以及什么时候该用什么样的式子来表原创 2021-07-26 10:34:34 · 260 阅读 · 0 评论 -
魔鬼训练第二天作业
4.6 作业令A={1,2,5,8,9},写出A\mathbf{A} = \{1, 2, 5, 8, 9\}, 写出 \mathbf{A}A={1,2,5,8,9},写出A上的 “模 2 同余” 关系及相应的划分.R={(a,b)∈A×A∣amod 2=bmod 2}\mathbf{R} = \{(a,b) \in \mathbf{A} \times \mathbf{A} \vert a \mod 2 = b \mod 2\}R={(a,b)∈A×A∣amod2=bmod2}.R={(2,..原创 2021-07-27 11:31:00 · 232 阅读 · 0 评论 -
2021夏实验室内部系列讲座总结
实验室内部系列讲座总结 老师们为了让我们对实验室的研究方向有一个大致的了解,于19日起开展了由6为导师线上科普,各导师介绍了各自的研究方向。各位导师的方向都是围绕着机器学习展开,在不同的领域或者研究方向上通过机器学习得到解决问题的策略。 首先是19日上午,由汪老师讲解了她的研究方向以及她所带领的小组的主要工作。汪老师的研究方向关于主动学习的,从汪老师的介绍中得知:主动学习是从任务出发,通过对任务的理解来指定标准,挑选最重要的样本,使其最有助于模型学习的过程。汪老师以故事形式引入,告诉了我们一个.原创 2021-07-27 00:15:38 · 370 阅读 · 0 评论