自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 集成学习之Boosting方法系列_CatBoost

集成学习是一种机器学习方法,通过将多个弱学习器(weak learners)组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法,它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器,以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种:CatBoost。

2024-01-29 09:51:32 1371

原创 集成学习之Boosting方法系列_XGboost

集成学习是一种机器学习方法,通过将多个弱学习器(weak learners)组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法,它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器,以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种:XGBoost。

2024-01-28 11:21:18 1314

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_建模分析

Spaceship Titanic比赛,类似Titanic比赛,只是增加了更多的属性以及更大的数据量,仍是一个二分类问题。今天要分析的是一篇大神的解决方案,看完后觉得干货满满,由衷地敬佩他们对数据分析的细致程度,对比之下只觉得之前自己的分析仅仅是表面功夫,单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习,完善自己的解决方案!!!项目代码 :Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-28 10:40:47 872

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据处理

Spaceship Titanic比赛,类似Titanic比赛,只是增加了更多的属性以及更大的数据量,仍是一个二分类问题。今天要分析的是一篇大神的解决方案,看完后觉得干货满满,由衷地敬佩他们对数据分析的细致程度,对比之下只觉得之前自己的分析仅仅是表面功夫,单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习,完善自己的解决方案!!!项目代码 :Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-27 18:18:09 960 1

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据分析

Spaceship Titanic比赛,类似Titanic比赛,只是增加了更多的属性以及更大的数据量,仍是一个二分类问题。今天要分析的是一篇大神的解决方案,看完后觉得干货满满,由衷地敬佩他们对数据分析的细致程度,对比之下只觉得之前自己的分析仅仅是表面功夫,单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习,完善自己的解决方案!!!项目代码 :Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-27 16:08:48 1460 1

原创 Kaggle竞赛系列_SpaceshipTitanic比赛

Spaceship Titanic比赛,类似Titanic比赛,只是增加了更多的属性以及更大的数据量,仍是一个二分类问题。我使用的是基于LightGBM,结合交叉验证进行预测的单模方案,最终得分为0.79,有很多地方还可以改进,如果您愿意分享您宝贵的经验和知识,我将不胜感激。该比赛涉及数学建模、机器学习、随机森林、分类算法等多个领域,完整过一遍流程所获甚多。

2024-01-25 13:15:03 1401

原创 kaggle竞赛系列_特征筛选

Kaggle竞赛补充内容:特征筛选特征筛选(Feature Selection)是机器学习和数据分析中的一个重要步骤,其主要目的是从原始特征集合中选择最相关、最有价值的特征,以用于构建模型、提高模型性能或减少计算成本。特征选择的核心思想是从所有可用特征中筛选出对于解决问题最有用的特征,从而提高模型的泛化能力和效率。特征筛选是指从原始的特征集合中挑选出一个子集,以在构建机器学习模型时用于训练模型、提高模型性能或减少计算成本。

2024-01-24 12:44:05 1084

原创 集成学习之Boosting方法系列_LightGBM

集成学习是一种机器学习方法,通过将多个弱学习器(weak learners)组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法,它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器,以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种:LightGBM。

2024-01-23 21:14:44 1122 1

原创 数学建模系列_随机森林

数学建模备赛内容62 随机森林模型基本原理_哔哩哔哩_bilibili什么是随机森林随机森林是一种集成学习方法,通过组合多个决策树来解决分类和回归问题。每棵树都是根据随机选择的训练数据和特征构建的,最终的预测结果是基于多个树的投票(分类问题)或平均(回归问题)得出的。随机森林具有良好的泛化能力、鲁棒性和高效性,适用于各种机器学习任务。本质属于集成学习方法、由多棵决策树组成,每棵决策树都是一个分类器,将多个分类器的结果进行投票。(1)具有极高的准确率(2)能够使用在大数据上(3)不需要降维。

2024-01-23 12:38:41 2863 1

原创 数学建模系列_决策树

数学建模备赛内容57 什么是决策树_哔哩哔哩_bilibili什么是决策树:决策树(Decision Tree)是一种常用于机器学习和数据挖掘领域的监督学习算法,它用于建立一个类似于树状结构的模型,用于进行分类和回归任务。决策树模型基于一系列的决策规则,每个规则都将数据集中的样本分割成不同的子集,直到最终达到某个决策或目标。在构建决策树模型时,算法会根据训练数据集中的特征和目标值来自动选择最优的分割点和规则,以最大程度地提高模型的预测性能。

2024-01-20 09:40:14 1253

原创 Kaggle竞赛系列_Titanic比赛

本菜鸡第一次尝试此类比赛,踩了很多坑,也有很多地方还可以改进,最终得分也只有0.76,如果您愿意分享您宝贵的经验和知识,我将不胜感激。“Titanic - Machine Learning from Disaster” 是 Kaggle 平台上的一个知名比赛,参与者需使用机器学习模型预测哪些乘客在泰坦尼克号沉船事故中幸存。比赛提供了包含各种特征的乘客数据,如性别、年龄、舱位等。参赛作品将根据预测幸存结果的准确性进行评估。

2024-01-19 16:37:56 583 1

原创 UCI数据集准备方式

下载完成后会得到一个包含4个文件的压缩包,我们主要对iris.data进行处理。整理好的Iris数据集。

2023-11-21 08:49:20 139 1

原创 最优化方法 线性方程组求解

已知向量,矩阵,线性方程组,其中:编写代码,通过高斯消元法求解,并验证解的准确性。

2023-10-10 12:23:39 680 1

原创 模式识别——统计决策方法——正态分布时的统计决策

px12πd2∣∑∣12exp−12x−μT∑−1x−μ其中μEx∑Ex−μx−μT其中px2π2d​∣∑∣21​1​exp−21​x−μT∑−1x−μ)}其中μEx∑E{(x−μx−μT。

2023-10-08 17:58:48 263 1

原创 模式识别——统计决策方法——Neyman-Pearson决策规则

如果与最小错误率决策规则相对比,可以看出Neyman-Pearson决策规则也是以似然比为基础的,但两者所使用的阈值不同。作决策,则很可能使实际的决策效果有较大的错误率或较大风险。能否在这种情况下,找到一种合适的分类器设计,使其最大可能的风险为最小。换句话说,如果先验概率值在教大范围内变化,就可能产生的最大风险而是最小的。​ 之前讨论的最小错误率或最小风险决策方法都是在先验概率已知的条件下进行的,先验概率的数值对决策有很密切的关系。,而Neyman-Pearson是由方程组的解获得的一个常数入。

2023-10-06 20:47:47 518 1

原创 模式识别——统计决策方法——最小风险贝叶斯决策

​ 现在再回到猜硬币的那个简单的例子上来。前面给出的是在最小错误率的原则下得到的决策规则,但是,根据具体的场合不同,我们应关心的有可能并不仅仅是错误率,而是错误所带来的损失:毕竞,把一角误认为是五角与把五角误认为是一角所带来的损失是不同的。​ 同样,在癌细胞识别的例子中,我们不但应该关心所作的决策是否错误,更应该关心决策错误所带来的损失惑风险。比如,如果把正常细胞误判为癌细胞,会给病人带来精神上的负担和不必要的进一步检查,这是一种损失;

2023-09-30 12:21:46 1318

原创 模式识别——统计决策方法——最小错误率贝叶斯决策

​ 从图2-2可以看到,这种决策实际的分界线是图中的虚线位置,如果样本x落在分界线左侧则归为第一类,落在右侧则归为第二类。从最小错误率的要求出发,利用概率论中的贝叶斯公式,就能得出使错误率最小的分类决策,称之为最小错误率贝叶斯决策。把硬币的重量仍记为x,与上面所述的决策过程类似,现在应该考查在已知这枚硬币重量为x情况下硬币属于各类的概率,对两类硬币分别记作。则是x的分布概率,将这两个式子相乘积分得到就是所有样本的平均错误率。是对单个样本x的决策总体错误率,包括将正类x决策为负类,将负类x决策为正类,而。

2023-09-30 12:21:11 1235

原创 脑与认知科学-实验一-认知科学实验设计

观察下面的三组有色文字,请说出每个词语显示出来的颜色​ 第一组:如果文字的意义与显示的字体颜色相同,例如绿色颜色的“绿色”二字,那么说出显示文字的颜色的名称比较容易且迅速,反应时RT会很短。​ 第二组:如果文字是以红色这一颜色显示,而文字是“绿色”二字,那么反应时RT会变长,且辨识很容易出错。​ 第三组:如果文字的意义与显示的字体颜色没有关系,例如老鼠等词语,那么说出显示文字的颜色的名称比第二组容易且迅速,RT比第二组短。​ 斯特鲁普效应展示了人们对事物的认知过程是一个自动化的过程。

2023-09-27 19:44:45 472 2

原创 novelai本地部署指南

自动安装过程中可能会出现网络问题,一般来说多重新运行几遍webui-user.bat就可以解决问题,或者翻墙再试几次。如果手动添加环境,则在“此电脑”右键,选择”属性“,进入系统信息,选择“高级系统设置”, 进入“环境变量”新建环境变量,将python的文件夹和scripts的地址输入进去,并将这两个环境变上移到顶部。进入控制台,输入python,若弹出以下界面,则安装成功。在安装时选择add to path,将其添加到环境变量。进入控制台,输入git,若弹出以下界面,则安装成功。详细步骤可以参考该文章。

2023-02-25 18:04:21 731 2

Python爬虫第二课:Request.md

Python爬虫第二课:Request.md

2022-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除