机器学习
文章平均质量分 94
羞儿
和我一起学习吧,有问题请积极讨论。费曼学习法,论证,整合,再论证,再整合。
展开
-
支持向量机,硬间隔,软间隔,核技巧,超参数设置,分类与回归
SVM(Support Vector Machine,支持向量机)是一种非常常用并且有效的监督学习算法,在许多领域都有广泛应用。它可以用于二分类问题和多分类问题,并且在处理高维数据和特征选择方面非常强大。SVM算法的核心思想是通过找到一个超平面来最大化最小边界的方式进行分类,即找到一个能够将两类数据分开,并且最大化边界的超平面。对于线性可分的情况,SVM通过找到离超平面最近的数据点,即支持向量,计算出决策边界的法向量,从而得到分类结果。对于线性不可分的情况,可以通过引入松弛变量和核技巧来实现非线性的分类。以原创 2023-11-29 10:17:13 · 1388 阅读 · 0 评论 -
线性模型加上正则化
多项式回归是一种回归分析中使用的方法,可以通过拟合一个关于自变量的多项式来预测因变量的数值。岭回归是一种用于处理多重共线性问题的线性回归方法,它通过对模型的系数进行约束,可以提高模型的稳定性和泛化能力。L2正则化项基于模型的系数向量的平方和来惩罚大的系数值,从而有效地减小模型的过拟合风险。弹性网络回归是一种结合了L1和L2正则化惩罚的线性回归模型,能够处理高维数据和具有多重共线性的特征。Lasso回归是一种线性回归的扩展方法,它通过加入L1正则化项来进行特征选择和模型参数的压缩。是L1正则化项的权重。原创 2023-11-26 21:05:53 · 518 阅读 · 0 评论 -
到github上去学别人怎么写代码
引用数据类型的特点:存储的是该对象在栈中引用,真实的数据存放在堆内存里。小的学习步长会延长算法的工作时间,可能需要更多的迭代才能达到代价函数的最小值。在这个演示中,我们将建立一个模型,根据 "人均经济生产总值 "和 "自由度 "参数预测各国的 “幸福指数”。既然模型已经训练完成,我们就可以绘制模型在训练数据集和测试数据集上的预测结果,看看模型与数据的拟合程度如何。既然模型已经训练完成,我们就可以绘制模型在训练数据集和测试数据集上的预测结果,看看模型与数据的拟合程度如何。与根据数据估计的未知参数是线性的。原创 2023-10-07 21:53:48 · 101 阅读 · 0 评论 -
机器学习小知识--面试得一塌糊涂
Boosting是一种与Bagging很类似的技术。它的基本原理:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,原创 2023-10-06 16:23:20 · 76 阅读 · 0 评论 -
【机器学习算法实践】lightGBM将可解释的机器学习实现工业落地,小数据量机器学习就够了,大数据量还得深度学习。推荐看论文进行理解,boosting方法有残差的感觉了
LightGBM可以看作是XGBoost的升级豪华版,在获得与XGBoost近似精度的同时,又提供了更快的训练速度与更少的内存消耗。正如其名字中的Light所蕴含的那样,LightGBM在大规模数据集上跑起来更加优雅轻盈,一经推出便成为各种数据竞赛中刷榜夺冠的神兵利器。原创 2023-04-04 22:40:05 · 394 阅读 · 0 评论 -
【机器学习算法实践】基于XGBoost的分类预测,运用好模型的基础是做好特征工程,寻找属性之间的关系。运用好模型还得调参
在实践的最开始,我们首先需要导入一些基础的函数库包括:numpy (Python进行科学计算的基础软件包),pandas(pandas是一种快速,强大,灵活且易于使用的开源数据分析和处理工具),matplotlib和seaborn绘图。一种最简单的方法是把所有的相同类别的特征编码成同一个值,例如女=0,男=1,狗狗=2,所以最后编码的特征值是在特征数量[0,特征数-1]之间的整数。当它的值较大时,可以避免模型学习到局部的特殊样本。[默认1] 用来控制树的每一级的每一次分裂,对列数的采样的占比。原创 2023-04-03 19:39:46 · 676 阅读 · 0 评论 -
【机器学习算法实践】xgboost,一种boosting工程思想,泰勒的二阶展开近似拟合数据分布,建议细看原论文
XGBoost(eXtreme Gradient Boosting)极致梯度提升,是一种基于GBDT的算法或者说工程实现。XGBoost的基本思想和GBDT相同,但是做了一些优化,比如二阶导数使损失函数更精准;正则项避免树过拟合;Block存储可以并行计算等。XGBoost具有和的特点,在数据挖掘、推荐系统等领域得到广泛的应用。XGBoost 主要是用来解决有监督学习问题,此类问题利用包含多个特征的训练数据xi,来预测目标变量yi。原创 2023-04-03 10:10:16 · 406 阅读 · 0 评论 -
【机器学习算法实践】GBDT提升树,集成学习boosting方法,可分类课可回归,CART树是基础,调参是重点
GBDT也是迭代,使用了前向分布算法,但是**弱学习器限定了只能使用CART回归树模型,同时GBDT是基于残差学习的算法,没有AdaBoost中的样本权重的概念**。GBDT有很多简称,有GBT(Gradient Boosting Tree)、 GTB(Gradient Tree Boosting )、GBRT(Gradient Boosting Regression Tree)梯度虽然GBDT也是Boosting家族的成员,但是却和Adaboost有很大的不同。GBDT也是迭代,使用了前向分布算法,但是。原创 2023-04-02 16:42:27 · 467 阅读 · 0 评论 -
【机器学习算法实践】AdaBoost是典型的Boosting算法,加法模型多个弱分类器流水线式的提升精度,更关注那些难处理的数据
现实生活中,大家都知道“人多力量大”,“3 个臭皮匠顶个诸葛亮”。而集成学习的核心思路就是“人多力量大”,它并没有创造出新的算法,而是把已有的算法进行结合,从而得到更好的效果。集成学习会挑选一些简单的基础模型进行组装,组装这些基础模型的思路主要有 2 种方法:bagging(bootstrap aggregating的缩写,也称作“套袋法”)和boostingBoosting 和 bagging 最本质的差别在于他对基础模型不是一致对待的,而是经过不停的考验和筛选来挑选出“精英”,然后给精英更多的投票权,表原创 2023-03-24 22:38:48 · 712 阅读 · 0 评论 -
【机器学习算法复现】支持向量机,可分类可回归的有监督学习算法,从数学原理到sklearn调包实践,可视化展示感受参数变化带来的影响
在机器学习中,支持向量机(SVM)是具有相关学习算法的监督学习模型,其分析用于分类和回归分析的数据。给定一组训练示例,每个示例标记为属于两个类别中的一个或另一个,SVM训练算法构建一个模型,将新示例分配给一个类别或另一个类别,使其成为非概率二元线性分类器。SVM模型是将示例表示为空间中的点,映射使得单独类别的示例除以尽可能宽的明确间隙。然后将新的示例映射到同一空间,并根据它们落在哪个边缘预测属于一个类别。除了执行线性分类之外,SVM还可以使用所谓的内核技巧有效地执行非线性分类,将其输入隐式映射到高维特征空间原创 2023-03-24 10:48:37 · 622 阅读 · 0 评论 -
【机器学习算法复现】随机森林,以又放回的方式构建的决策树为基础的集成学习方法,可回归可分类不同任务注意评价指标。
在解释随机森林前,需要先提一下决策树。决策树是一种很简单的算法,他的解释性强,也符合人类的直观思维。这是一种基于if-then-else规则的有监督学习算法,下面的图片可以直观的表达决策树的逻辑。随机森林 – Random Forest | RF,随机森林是由很多决策树构成的,不同决策树之间没有关联。当我们进行分类任务时,新的输入样本进入,。p1−n1nRF划分时考虑的最大特征数: 就是之前提到的“在每个节点处,从M中随机选择m个特征维度”中的那个m。原创 2023-03-22 15:23:31 · 1069 阅读 · 0 评论 -
【机器学习算法复现】决策树,树形结构解决属性选择问题,一种可回归可分类的有监督学习算法
信息增益准则对可取数目较多的属性有所偏好(典型代表ID3算法),而增益率准则(CART)则对可取数目较少的属性有所偏好,但CART进行属性划分时候不再简单地直接利用增益率尽心划分,而是采用一种启发式规则)(只要是使用了信息增益,都有这个缺点,如RF)。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。:选择好特征后,就从根节点触发,对节点计算所有特征的信息增益,选择信息增益最大的特征作为节点特征,根据该特征的不同取值建立子节点;原创 2023-03-22 10:56:51 · 734 阅读 · 0 评论 -
【机器学习算法复现】k近邻既能分类也能回归的监督学习方法,在大数据量下KD树构建超矩阵空间加速训练
K最近邻(K-Nearest Neighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一,是著名的模式识别统计学方法,在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。思路是:如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别,则该样本也划分为这个类别。 KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定原创 2023-03-21 16:04:43 · 389 阅读 · 0 评论 -
【机器学习算法复现】sklrean朴素贝叶斯掉包实现文本分类,事件独立的苛刻条件下还是很厉害的
在机器学习领域,通常将监督学习 (supervised learning) 划分为两大类方法:生成模型 (generative model) 与判别模型 (discriminative model),贝叶斯方法正是生成模型的代表 (还有隐马尔科夫模型)。贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。原创 2023-03-17 22:53:40 · 463 阅读 · 0 评论 -
【机器学习算法复现】逻辑回归解决分类问题,从数学原理走一遍流程。复习一下一些可视化展示的应用
Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。原创 2023-03-17 09:51:43 · 755 阅读 · 0 评论 -
机器学习错题集(1)
bias越高,说明模型越简单,参数太少,对样本数据的拟合效果不好,这就是欠拟合。降低bias的方法是增加数据的特征维数,从而实现模型参数的增加,提高模型复杂度,增强模型对样本数据的拟合能力,拟合能力越高bias越低。二是采用Cross-Validation方法,即在进行核函数选取时,分别试用不同的核函数,归纳误差最小的核函数就是最好的核函数.如针对傅立叶核、RBF核,结合信号处理问题中的函数回归问题,通过仿真实验,对比分析了在相同数据条件下,采用傅立叶核的SVM要比采用RBF核的SVM误差小很多.。原创 2023-03-03 17:11:18 · 648 阅读 · 0 评论