机器学习算法
文章平均质量分 73
Py零零
这个作者很懒,什么都没留下…
展开
-
xgboost算法
算法篇xgboost算法xgboost算法属于集成学习中的boosting类,又叫极端梯度提升树,是基于GBDT做的改进,但是基于的树模型都是回归树,因为回归树会计算出一个具体的值,这样才能比较真实结果和预测结果相差多少,在进行下一次的训练。训练过程:一个模型一个模型串行训练测试过程:一个样本输入,并行预测,预测结果相加,即可获得最终结果GBDT首先来了解一下GBDT,GBDT叫做梯度提升树,是基于BDT(提升树)的改进,所谓提升树,就是后一棵树对前一棵树进行提升,就像集成学习中boosting原创 2021-09-01 22:23:41 · 1623 阅读 · 0 评论 -
算法导包合集
算法篇导包合集**有监督学习算法朴素贝叶斯算法伯努利朴素贝叶斯from sklearn.naive_bayes import BernoulliNB高斯朴素贝叶斯from sklearn.naive_bayes import GaussianNBfrom sklearn.datasets import make_blobs# **datasets**:意为数据集,make_blobs:产生随机数的数据集from sklearn.model_selection import train原创 2021-08-17 15:34:58 · 95 阅读 · 0 评论 -
评估指标(下)
算法篇评估指标前面讲述分类算法的评估指标,下面来说一下回归算法的评估指标。R2R2就是score,也就是我们在分类算法中经常说的准确率,但是在回归算法中就不能叫准确率了,叫R2。R2=1−uvR2=1-\frac{u}{v}R2=1−vuu=∑(y−y的预测结果)2u=∑(y-y的预测结果)^2u=∑(y−y的预测结果)2v=∑(y−y的均值)2v=∑(y-y的均值)^2v=∑(y−y的均值)2最好的情况就是u=0,真实结果等于预测结果,R2等于1比较差的情况是u=v,预测结果为均值,也原创 2021-08-17 08:32:36 · 210 阅读 · 0 评论 -
随机森林算法
算法篇集成学习集成学习通过训练多个学习器,然后把这些学习器组合起来,以达到更好的预测性能的目的。集成学习分为两类:Bagging:弱学习器的生成没有先后顺序,可以并行训练,如果是分类算法预测结果为多个弱学习器预测结果的众数,如果是是回归算法则是平均值Boosting:弱学习器的生成有先后顺序,后一个弱学习器是之前学习器的基础上训练的,预测结果为多个弱学习器预测结果之和随机森林随机森林就是属于集成学习中Bagging类的算法,弱学习器类型全部都是决策树,很多树组合在一起就变成了森林。boots原创 2021-08-16 19:45:46 · 157 阅读 · 3 评论 -
逻辑回归算法
算法篇逻辑回归算法逻辑回归算法属于有监督学习算法中的分类算法,因为逻辑运算只会出现True或False,所以逻辑回归只能做二分类问题。逻辑回归算法是将线性回归的运算结果放入sigmoid函数中,得出一个(0,1)之间的数,大于0.5就属于类1,小于0.5就属于类0逻辑回归的结果是通过线性回归计算出来的,线性回归质量的好坏会直接影响逻辑回归的结果,影响线性回归的就是回归系数。对于线性回归来说是使用随机梯度下降的方法计算的,也就是最小二乘法来计算回归系数的。对于逻辑回归也是使用随机梯度下降的方法,原创 2021-08-16 16:52:00 · 449 阅读 · 0 评论 -
朴素贝叶斯算法(下)
算法篇朴素贝叶斯多项式朴素贝叶斯多项式朴素贝叶斯多用于出现次数作为特征的数据,特征数据值必须是非负的原创 2021-08-16 11:08:03 · 102 阅读 · 0 评论 -
朴素贝叶斯算法(上)
算法篇朴素贝叶斯算法朴素贝叶斯算法属于有监督学习中的分类算法,基于贝叶斯理论和特征相互独立的假设,因为假设特征相互独立让问题变得简单,因此称为朴素要使用朴素贝叶斯算法,首先要了解的就是概率。条件概率公式:当A、B相互独立时,P(AB)=P(A)∗P(B)P(AB) = P(A) * P(B)P(AB)=P(A)∗P(B)全概率公式:贝叶斯公式:朴素贝叶斯计算步骤:一个数据集中有两个样本(B1,B2, B3)、(C1,C2,C3)和一个标签的两组(A1,A2)给定一个测试样本(D1原创 2021-08-15 23:57:05 · 117 阅读 · 0 评论 -
线性回归算法(下)
算法篇线性回归泛化能力:模型在未见过的数据集上的表现能力算法目的:模型泛化能力强,尽量降低在训练集上的错误率,最终的目的希望在测试集上有很低的错误**欠拟合欠拟合:在训练集上拟合的不够,在训练集上的效果很差,在测试集上的效果也很差,泛化能力弱原因:模型过于简单。【适当增加模型的复杂度】数据集量少。【增加数据量】特征数量少。【增加特征,或多项式特征处理】多项式特征处理多项式特征处理就是最少增加两列,一列是x0x^0x0,一列是x2x^2x2…这样就能将线性方程转化为非线性,多项式原创 2021-08-15 20:26:08 · 115 阅读 · 0 评论 -
线性回归算法(上)
算法篇线性回归线性回归属于有监督学习中的回归算法,只能处理标签是连续数据类型的数据。通过寻找特征和标签之间的关系,生成线性方程,所以线性回归算法只针对线性回归方程。多元线性回归方程:y=a1x1+a2x2+....+anxn+by=a_1x_1+a_2x_2+....+a_nx_n+by=a1x1+a2x2+....+anxn+b假设具有n个特征的样本和标签的关系是线性的,可以将其定义为多元线性回归:其中,n表示特征数目,因为还有一个回归参数b是没有未知数的所以需要添加一列x0=1x原创 2021-08-15 18:58:02 · 149 阅读 · 0 评论 -
k-means算法
算法篇k-meansk-means属于无监督学习中的聚类算法,只适用于没有标签的数据集,用来处理聚类问题,需要自己来划分预测结果。所谓聚类问题,就是给定一个数据集D,每个样本有n个属性,使用某种算法将数据集D分为k个子集,使每个子集内部元素之间的相似度尽可能的高,使集合和集合之间的各个元素之间的相似度尽可能的低,每个子集称为一个簇。聚类的目的:类内相似,类外相异算法原理从数据D随机选取k个元素,作为k个簇各自的聚类中心,k个元素可以是数据中的元素也可以不是数据中的元素分别计算剩下的元素和k个原创 2021-08-15 15:36:28 · 526 阅读 · 0 评论 -
决策树算法
算法篇决策树决策树的基本组成部分包括:根节点、分节点和叶子节点根节点和分节点通常用方块表示,叶子节点通常用椭圆表示。决策树的关键在于怎样建立出这样的一个树,怎样建立出一个达到要求的前提下深度最小的树。决策树是由好几个算法组成的,每个算法都有不同的方法来解决构建树的问题。决策树的优点推理过程比较容易理解,决策推理过程可以表示为if-else的形式推理过程完全取决于属性变量的取值特点可以自动忽略对目标没有贡献的属性,能够判断属性的重要性决策树中的算法CLS、ID3、C4.5、CART四原创 2021-08-12 22:34:05 · 396 阅读 · 0 评论 -
评估指标(上)
算法篇回归算法原创 2021-08-11 08:37:09 · 167 阅读 · 0 评论 -
knn算法
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2021-08-09 19:32:50 · 158 阅读 · 0 评论