机器学习
文章平均质量分 74
机器学习算法
醋酸洋红就是我
这个作者很懒,什么都没留下…
展开
-
机器学习——集成学习进阶
目录XGBoost目标函数XGBoost回归树构建方法XGboost和GDBT的区别api介绍XGBoost案例otto案例——xgboost实现lightGBM参数介绍lightGBM案例《绝地求生》玩家排名预测XGBoost极端梯度提升树目标函数XGBoost回归树构建方法XGboost和GDBT的区别api介绍XGBoost案例在决策树中的机器学习部分代码进行修改# 4.xgboost模型训练# 4.1 初步模型训练from xgboost import原创 2023-06-29 00:36:20 · 61 阅读 · 0 评论 -
机器学习——HMM模型
隐马尔可夫模型(HHM)是统计模型,用来描述一个含有隐含未知参数的马尔可夫过程其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步分析,例如模式识别状态空间中从一个状态到另一个状态转换的随机过程球的观测顺序为:red,white,red盒子最可能的隐藏状态顺序为:box3,box3,box3-2.0385453099152330.13021800000000003原创 2023-06-28 00:26:14 · 133 阅读 · 0 评论 -
机器学习——EM算法
总的来说:极大似然估计就是用来评估模型参数的统计学方法。原创 2023-06-27 00:10:55 · 33 阅读 · 0 评论 -
机器学习——支持向量机
寻找到一个超平面使样本分成两类,并且间隔最大SVM能够执行线性或非线性分类,回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一超平面最大间隔硬间隔和软间隔注意实例化有所不同array([1])定义输入数据线性可分支持向量机拉格朗日乘子法对偶问题整体流程0/1损失、SVM Hinge损失函数、Logistic损失函数核函数将原始输入空间映射到新的特征空间,从而,使得原本线性不可分的样本可能在核空间可分常见核函数让尽可能多的实例位于预测线上,同时限制间隔违例(原创 2023-06-19 15:47:16 · 65 阅读 · 0 评论 -
机器学习——朴素贝叶斯
朴素贝叶斯的优缺点朴素贝叶斯和逻辑回归的区别。原创 2023-06-17 19:43:55 · 41 阅读 · 0 评论 -
机器学习——聚类算法
n_components如果是小数,则表示保留百分之多少的信息,如果是整数,则表示减少到多少特征。k-meabs包含两层内容,k是起始中心点个数,means是求中心点到其他数据点距离的平均值。降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。如果质心的初始值选择不好,SSE只会到达一个不怎么好的局部最优解。n_clusters是开始的聚类中心数量,即产生的质心数。用尽量少的类别聚类尽量多的样本,同时获得较好的聚类效果。让选择的质心尽可能的分散。原创 2023-06-16 02:05:03 · 138 阅读 · 0 评论 -
机器学习——集成学习
这些预测最好结合成组合预测,因此优于任何一个单分类的做出预测。在随机森林构造过程中,如果进行有放回的抽样,我们会发现,总有一部分样本是我们选不到的。没有选择到的数据,称为out-of-bag(OOB)数据,总有36.8%的数据抽不到。使用上面方式获取数据不可行,然后使用随机欠采样获取响应的数据。用途:当基学习器是决策树时,可以使用包外样本来辅助剪枝。经验证,包外估计是对集成分类器泛化误差的无偏估计。随机森林是一个包含多个决策树的分类器。梯度提升树,使用的是CART回归树。无偏估计:所有样本出现的概率一样。原创 2023-06-13 21:01:52 · 69 阅读 · 0 评论 -
机器学习——决策树
是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点。如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。以某特征划分数据集前后的熵的差值,可以用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。已经统计了词频,只是此处没有重复的单词,以及单个单词和标点符号不进行统计。数据越集中的地方熵值越小,数据越分散的地方熵值越大。原创 2023-06-12 00:58:19 · 154 阅读 · 2 评论 -
机器学习——逻辑回归
对每个少数类样本,从它的最近邻中随机选择一个样本(是少数类中的一个样本),然后在其之间的连线上随机选择一点作为新合成的少数类样本。展示序列(1:1,2:0,3:1,4:0,5:0,6:0),前面表示序号,后面1表示点击0表示没有点击。AUC的概率意义是随机取一对正负样本,正样本得分大雨负样本得分的概率。机器学习中的一种分类模型,是一种分类算法,解决二分类问题的利器。在少数类中随机选择一些样本,然后通过复制所选择的样本生成样本集。提升原本属于1类别的概率,降低原本是0类别的概率。预测与真实一样所占的比例。原创 2023-06-08 21:43:37 · 90 阅读 · 0 评论 -
机器学习——线性回归
具有L2正则化的线性回归,alpha是正则化力度,solver会根据数据自动选择优化方法,normalize是数据是否进行标准化。随机选择第i个样本来更新此样本的梯度,其他样本的梯度保持不变,然后求得所有梯度的平均值,进而更新参数。在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向。在单变量函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率。每次只代入计算一个样本目标函数的梯度来更新权重,再取下一个样本重复此过程。正则化力度越大,权重系数会越小。原创 2023-06-07 20:51:56 · 333 阅读 · 1 评论 -
机器学习——K近邻算法
特征值4个:花瓣、花萼的长度和宽度目标值3个:setosa,vericolor,virginica小数据集获取用load大数据集获取用fetch用的小数据集。原创 2023-06-06 22:26:17 · 227 阅读 · 0 评论 -
机器学习概述(自用)
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。特征预处理:通过一些转换函数将特征数据转换成更适合算法模型的特征数据过程。机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。获取数据,数据基本处理,特征工程,机器学习(模型训练),模型评估。模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。输入数据没有被标记,也没有确定的结果,样本数据类别未知。原创 2023-06-05 14:41:46 · 297 阅读 · 1 评论