
python-MachineLearning
文章平均质量分 51
LLLoUo
这个作者很懒,什么都没留下…
展开
-
优化模型之算法调参
模型有很多参数,如何找到最佳的参数组合,可以把它当作一个查询问题来处理,但是调整参数到何时为止,应该遵循偏差和方差协调的原则。原创 2023-09-14 17:03:00 · 382 阅读 · 1 评论 -
优化模型之集成算法
比如你生病了,去n个医院看了n个医生,每个医生都给你开了药方,最后哪个药方的出现次数最多,就说这个药方越有可能时最优解。随机森林由很多的决策树组成,而且每一棵决策树之间是没有关联的,当有一个新的输入样本进入时候,就让森林中的每一颗决策树分别进行判断,最后看哪一类被选择最多,作出预测。AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,然后把这些弱分类器集合起来,构成一个更强的最终分类器。是通过创建两个或多个算法模型,利用投票算法将这些算法包装起来,计算各个子模型的平均预测状况。原创 2023-09-14 15:49:56 · 186 阅读 · 1 评论 -
通过Pineline自动流程
Pipeline能够处理训练数据集和评估数据集之间的数据泄露问题,通常会在数据处理过程中对分离出的所有数据子集做同样的数据处理,如正态化处理。Pipeline提供一个工具(FeatureUnion)来保证数据特征选择时数据的稳定性。原创 2023-09-14 14:31:48 · 132 阅读 · 1 评论 -
机器学习算法比较
最合适的算法比较方法是:使用相同的数据、相同的方法来评估不同的算法,以便得到一个准确的结果。下面将使用同一个数据集来比较六种分类算法,以便选择合适的算法来解决问题。下文介绍一种模板,用于比较不同的算法,并选择合适的算法。原创 2023-09-14 13:41:43 · 184 阅读 · 1 评论 -
审查回归算法
【代码】审查回归算法。原创 2023-09-13 20:18:11 · 62 阅读 · 1 评论 -
审查分类算法
回归是一种极易理解的模型,相当于y=f(x),根据自变量,即特征数据;获取因变量,即预测值。逻辑回归其实是一种分类算法,它通过拟合一个逻辑函数来预测时间发生的概率,输出值应该为0~1,因此非常适合处理二分类问题。方法思路:如果一个样本再特征空间中的k哥最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。原理是通过某对象的先验概率,利用贝叶斯公式计算出其所在类别的后验概率,即该对象属于某一类的概率,最后选择具有最大后验概率的类作为该对象所属的类。分类与回归树的英文缩写是CART,属于一种决策树。原创 2023-09-13 20:02:44 · 59 阅读 · 1 评论 -
算法评估矩阵
即所有单个观测值与算术平均值的偏差的绝对值的平均值。(neg_mean_absolute_error)均方误差越小,说明模型越好。(neg_mean_squared_error)对数损失函数越小,模型越好,而且使损失函数尽量是一个凸函数,便于收敛计算。即算法自动分类正确的样本数除以所有的样本数得出的结果。反映因变量的全部变异能通过回归关系被自变量解释的比例。F1值就是精确率和召回率的调和均值,2F1=P+R。精确率:P=TP/(TP+FP)召回率:R=TP/(TP+FN)评估回归算法的评估矩阵。原创 2023-09-13 19:11:36 · 151 阅读 · 2 评论 -
模型评估算法
学习四种不同的分离数据集的方法,用来分离训练数据集和评估数据集。原创 2023-09-12 17:20:46 · 68 阅读 · 0 评论 -
数据特征选择
数据特征选择可以有助于:降低数据的拟合度提高算法精度减少训练时间。原创 2023-09-12 15:57:45 · 103 阅读 · 0 评论 -
数据预处理
scikit-learn提供两种标准的格式化数据的方法:适合和多重变换(Fit and Multiple Transform)适合和变换组合(Combined Fit-and-Transform)下面介绍4种scikit-learn中对数据进行预处理的方法。原创 2023-09-12 14:40:46 · 65 阅读 · 0 评论 -
数据理解记录
【代码】数据理解记录。原创 2023-09-11 15:21:27 · 47 阅读 · 0 评论 -
鸢尾花(Iris Flowers),机器学习初体验
查看库的版本。原创 2023-09-11 14:34:21 · 99 阅读 · 0 评论