![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 95
Dr. CV
这个作者很懒,什么都没留下…
展开
-
【机器学习】浅谈聚类算法
k-means++是一种改进的k-means聚类算法,它通过更智能地选择初始聚类中心来提高聚类结果的质量。需要注意的是,K-means算法对于不同的初始化和数据分布可能会产生不同的聚类结果,因此在使用K-means算法时需要多次运行并选择最好的聚类结果。其中,Ci是第i个簇,x是Ci中的样本点,μi是Ci的质心(Ci中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。k-means||是k-means的变体,k-means||在初始化中心点时对kmeans的缺点做了规避,主要体现在。原创 2024-03-31 09:04:06 · 974 阅读 · 1 评论 -
【机器学习】SVM(支持向量机,Support Vector Machine)重点
支持向量机是一种二类分类模型支持向量机学习方法包含构建由简至繁的模型线性可分支持向量机(linearsupportvectormachineinlinearlyseparablecase)线性支持向量机(linearsupportvectormachine)非线性支持向量机(non-linearsupportvectormachine)、要求数据必须线性可分纯线性可分的SVM模型对于异常数据的预测可能会不太准;对于线性可分的数据,线性SVM分类器的效果非常不错。原创 2024-03-31 08:56:20 · 828 阅读 · 1 评论 -
【机器学习】集成学习之Stacking(堆叠泛化)
Stacking(有时候也称之为stacked generalization,堆叠泛化)是指训练一个模型用于组合 (combine)其他各个模型。即首先我们先训练多个不同的模型,然后再以之前训练的各个模型的输出为输入来训练一个模型,以得到一个最终的输出。如果可以选用任意一个组合算法,那么理论上,Stacking可以表示前面提到的各种Ensemble方法。然而,实际中,我们通常使用单层logistic回归作为组合模型。原创 2024-03-31 08:46:13 · 8110 阅读 · 4 评论 -
【机器学习】浅谈XGBoost(极端梯度提升)
XGBoost是GBDT算法的一种变种,是一种常用的有监督集成学习算法;是一种伸缩性强、便捷的可并行构建模型的Gradient Boosting算法。XGBoost官网:XGBoost Github源码位置XGBoost支持开发语言:Python、R、Java、Scala、C++、GPU等。原创 2024-03-31 08:39:59 · 1067 阅读 · 1 评论 -
【机器学习】集成学习:随机森林与GBDT
RF的主要优点: 高效性、随机性、可解释性、高效性• 1. 训练可以并行化,对于大规模样本的训练具有速度的优势;• 2. 由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高的训练性能;• 3. 给以给出各个特征的重要性列表;• 4. 由于存在随机抽样,训练出来的模型方差小,泛化能力强,能够缓解过拟合的情况;• 5. RF实现简单;• 6. 对于部分特征的缺失不敏感。原创 2024-03-31 08:37:01 · 1034 阅读 · 1 评论 -
【机器学习】浅析决策树
构建决策树的目的是使数据更容易区分开决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构建决策树来进行分析的一种方式,是一种直观应用概率分析的一种解法;决策树是一种预测模型,代表的是对象属性与对象值之间的映射关系;决策树是一种树形结构,其中每个内部节点表示一个属性的测试,每个分支表示一个测试输出,每个叶节点代表一种预测类别;决策树是一种非常常用的有监督的分类算法。原创 2024-03-31 08:32:19 · 696 阅读 · 1 评论 -
【机器学习】特征工程快速入门
所有一切为了让模型效果变的更好的数据处理方式都可以认为属于特征工程这个范畴中的一个操作;至于需求做不做这个特征工程,需要我们在开发过程中不但的进行尝试。常规的特征工程需要处理的内容:异常数据的处理 删除、填充数据不平衡处理文本处理:词袋法、TF-IDF多项式扩展、哑编码、标准化、归一化、区间缩放法、PCA、特征选择…将均值、方差、协方差等信息作为特征属性,对特征属性进行对数转换、指数转换…结合业务衍生出一些新的特征属性…原创 2024-03-31 08:28:45 · 924 阅读 · 1 评论 -
【机器学习】浅谈逻辑回归
Logistic回归和Softmax回归都是在采用逻辑回归的思想来解决分类问题。逻辑回归是一种二分类模型,用于解决二分类问题。它通过将输入特征与权重相乘并加上偏置项,然后将结果通过一个Sigmoid函数(也称为Logistic函数)映射到0到1之间的概率值,用于预测样本属于某一类别的概率。Softmax函数是一种常用的多类别分类激活函数。它可以将一组实数转化为概率分布,使得每个类别的概率值都在0到1之间且总和为1。Softmax函数的计算公式是对输入向量中的每个元素进行指数运算,然后将结果进行归一化。原创 2024-03-31 08:26:05 · 1004 阅读 · 1 评论 -
【机器学习】浅谈梯度下降(Gradient Descent)
而对于SGD,每次更新参数只需要一个样本,因此若使用这30W个样本进行参数更新,则参数会被更新(迭代)30W次,而这期间,SGD就能保证能够收敛到一个合适的最小值上了。梯度下降通过迭代的方式来更新模型的参数,使得每一步的更新都朝着误差减小的方向前进。具体来说,梯度下降计算模型参数的梯度(即误差对参数的偏导数),然后按照梯度的方向和学习率的大小来更新参数值,直到达到收敛条件。此外,小批量随机梯度下降也可以避免陷入局部最优解,因为每个小批量的样本都是随机选择的,可以增加优化的随机性,有助于跳出局部最优。原创 2024-03-31 08:22:46 · 622 阅读 · 1 评论 -
【机器学习】快速入门回归算法
回归的全称是,“Regression towards the mean”。**直接翻译过来就是向着中间值回归。直白点说,就是在图像上给你一堆点,你来找一条线,然后让这条线尽可能的在所有点的中间。**这个找直线的过程,就是在做回归了。如下图所示进一步思考:为什么非要找这么一条尽可能的在所有点的中间的直线?我们面对的是一堆散乱的点,看不出具体的相关关系,而线能够体现趋势。所以,我们就是想办法来找一条尽可能在所有点的中间的直线,代表一个数据的整体趋势,让数据的整体关系更加清晰可见,这样就方便我们预判未来的情况。原创 2024-03-31 08:18:36 · 896 阅读 · 1 评论 -
【机器学习】快速入门K近邻算法
• K近邻(K-nearst neighbors, KNN)是一种基本的机器学习算法,所谓k近邻,就是 k 个最近的邻居的意思,说的是每个样本都可以用它最接近的 k 个邻居来代表。给定一个二维空间的数据集 T = {(2,3)T,(5,4)T,(9,6)T,(4,7)T,(8,1)T,(7,2)T},请给出:特征空间的划分过程、kd树的构造过程。,对于小于该值的样本划分到左子树,对于大于等于该值的样本划分到右子树,对左右子树采用同样的方式找方差最大的特征作为根节点,递归即可产生KD树;原创 2024-03-31 08:15:42 · 711 阅读 · 1 评论 -
【机器学习】快速了解机器学习
机器学习(Machine Learning(ML))是一门从数据中研究算法的科学学科。根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测。机器学习就是一个模拟人决策过程的一种程序结构。"""总样本数 预测值 predicted conditiontotal population 正例 负例真实值 positive正例 真正例TP 假负例FNtrue condition negative负例 假正例FP 真负例FP"""原创 2024-03-31 08:12:38 · 962 阅读 · 1 评论