自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 Linux文件权限详解

在Linux系统中,文件权限是保护文件和目录的重要机制之一。理解文件权限不仅是系统管理者的基本技能,也是开发人员、安全专家以及任何使用Linux系统的人必备的知识。

2024-10-10 10:21:16 1006

原创 SQL:DATEDIFF函数

DATEDIFF函数是用于计算两个日期之间的时间间隔的函数,它在不同的编程语言和数据库系统中都有广泛的应用。

2024-09-13 20:20:18 554

原创 SQL:子查询

子查询是SQL中强大的功能之一,它允许在一个查询内部嵌套另一个查询,以便处理更复杂的逻辑或数据检索需求。子查询可以用在SELECTFROMWHEREHAVINGINANYALL等子句中,根据使用场景和目的的不同,子查询可以分为多种类型。

2024-09-13 15:18:22 1243

原创 最小二乘法

最小二乘法(Least Squares Method)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

2024-08-07 11:07:50 329

原创 Datawhale AI 夏令营 从零入门 AI for Science(AI + 经济)

Datawhale AI 夏令营 从零入门 AI for Science(AI + 经济)

2024-08-02 11:05:19 306

原创 分子性质AI预测挑战赛

#AI夏令营 #Datawhale #夏令营

2024-07-05 14:39:46 957 1

原创 Datawhale AI 夏令营 机器学习挑战赛

#AI夏令营 #Datawhale #夏令营

2024-07-05 14:36:50 791

原创 Kaggle比赛:成人人口收入分类

准确率直接1.0 我没在验证集验证,比赛的文件也分享在csdn里了。

2024-06-17 22:59:46 533

原创 selenium实现点击或回车搜索页面:以JD为例

记录一个实现搜索功能的爬虫。

2024-06-11 13:56:06 368

原创 pandas处理两表合并

使用pandas库来处理两个Excel文件,并根据“货号”列中的数字部分合并这两个文件的数据。

2024-06-04 10:43:57 406

原创 数据分析:数据分割小程序

数据分割的代码做成了一个小程序,第一次分割按照数字,第二次分割按照空格和汉字。

2024-05-21 11:58:23 328

原创 数据分析:数据分割

分享一个数据分割的代码,第一次分割按照数字,第二次分割按照空格和汉字。

2024-05-21 11:54:44 435 2

原创 where 函数

参数调整

2024-04-07 15:19:09 593

原创 Pandas中的 .map 方法

替换元素值

2024-04-07 15:15:37 717

原创 交叉验证方法

交叉验证方法介绍

2024-04-05 21:12:33 637

原创 交叉验证(Cross-Validation)

交叉验证简介

2024-04-05 21:09:50 253

原创 机器学习模型调优简介

机器学习模型调优简介

2024-04-04 14:03:26 629

原创 欠拟合(Underfitting)

欠拟合(Underfitting)的详细介绍

2024-04-04 14:00:07 590

原创 过拟合(Overfitting)

过拟合(Overfitting)是机器学习中的一个重要概念,它指的是模型在训练数据上表现得过于优秀,以至于在训练集上达到了很高的准确率,但在未见过的数据(测试集或实际应用中的数据)上表现却大幅下降的现象。这通常意味着模型学习到了训练数据中的噪声或细节,而非数据的通用规律。

2024-04-03 23:55:43 736

原创 外部验证(External Validation)

外部验证

2024-04-03 23:53:36 2078 1

原创 收入分类数据获取

私信拿kaggle比赛收入分类的。

2024-04-02 18:01:00 279 1

原创 Kaggle:收入分类

Kaggle:收入分类

2024-04-02 17:58:34 1203 1

原创 数据的统计信息

test_data = pd.read_csv(r"C:\Users\11794\Desktop\新建文件夹 (2)\test.csv", encoding='utf-8', encoding_errors='replace')data = pd.read_csv(r"C:\Users\11794\Desktop\新建文件夹 (2)\train.csv", encoding='utf-8', encoding_errors='replace')# 假设这是您想要保留的所有列,并确保没有空值。

2024-04-01 12:46:31 309

原创 数据的统计描述

热力图(Heatmap)在数据分析中是一种非常有用的可视化工具,它可以通过色彩变化来直观地展示数据矩阵中各个元素值的大小。:在统计和数据科学中,热力图常被用来表示不同变量之间的相关性。在这种情况下,热力图的每个单元格通常显示两个变量之间的相关系数,颜色越深表示相关性越强,可以是正相关也可以是负相关。这有助于识别哪些变量是高度相关的,从而可能存在多重共线性问题,或者在特征选择时可以考虑剔除一些冗余特征。:热力图可以方便地比较数据矩阵中的值。

2024-04-01 12:28:32 1874

原创 统计学:误差

记录误差的笔记

2024-03-31 16:15:57 452 1

原创 生存分析笔记

生存分析的笔记

2024-03-31 16:09:55 599 1

原创 kaggle:肥胖风险的多类预测文件获取

私信我给肥胖风险的多类预测的文件。

2024-03-30 21:06:00 240

原创 kaggle竞赛:肥胖风险的多类预测

本次比赛的目标是利用各种因素来预测与心血管疾病相关的个体肥胖风险。给了三个csv文件,train.csv用来训练模型,test用来测试结果,sample_submission.csv是给的提交的示例。submission.csv是自己创建的,用来保存模型测试结果产生并要提交的结果。这个是train.csv里的各个特征,大概看了一下很多列不是数值型的所以第一步就是要把这些非数值类型的数据转换为数值类型的。

2024-03-30 21:02:45 1539

原创 肥胖风险的多类预测简单数据处理

【代码】肥胖风险的多类预测简单数据处理。

2024-03-29 22:32:28 287 1

原创 肥胖风险的多类预测

kaggle比赛题目。

2024-03-29 22:30:41 253 1

原创 线性回归模型

机器学习中线性回归的简单介绍和代码参考

2024-03-28 18:46:05 283

原创 缺失数据处理

缺失数据处理

2024-03-28 18:16:46 1543

原创 Pearson 特征选择

Pearson 线性相关系数是最常用的线性相关系数。最适用数据的形式:线 性数据、连续且符合正态分布、数据间差异不能太大。步骤:1.计算Pearson相关系数:对于每个特征与目标变量,计算它们之间的Pearson相关系数。这个系数可以衡量两个变量之间的线性相关性,其值域为[-1, 1]。值为1表示完全正相关,值为-1表示完全负相关,值为0表示无相关性。2.设定阈值:设定一个阈值,例如0.3或0.5,用于筛选相关性较强的特征。这个阈值可以根据实际问题和数据集的特性进行调整。

2024-03-27 13:16:23 579

原创 树模型特征选择

树模型特征选择的目的是通过选择最相关的特征来构建具有较高预测能力的树模型。树模型特征选择的原理基于两个关键概念:纯度和信息增益。纯度是指节点中目标变量的混杂程度,信息增益是指在某个特征的条件下,目标变量的不确定性减少的程度。树模型特征选择的方法通常包括基于纯度的方法(如基尼指数、熵)和基于信息增益的方法(如信息增益、信息增益比)。

2024-03-27 13:01:00 832

原创 L2 范数特征选择

L2范数特征选择(L2-normfeatureselection)是一种常用的特征选择方法,它通过对特征权重进行正则化,从而选择出最具有预测能力的特征。

2024-03-26 12:28:50 356

原创 特征选择中的方法

在特征选择中,L1范数被用来作为一个正则化项,它能够促使模型中的某些特征权重变为0,从而实现特征的稀疏化。通过将特征权重稀疏化,L1范数特征选择可以排除对预测任务没有贡献的特征,提高模型的泛化能力和解释性。通过上述流程,L1范数特征选择可以找到对预测任务最重要的特征,并且将无关的特征权重置为0,从而实现了特征选择的目的。L1范数特征选择是一种常用的特征选择方法,它通过对特征权重进行稀疏化,从而选择出最具有预测能力的特征。根据特征的权重,选择具有重要性的特征。使用训练数据拟合机器学习模型,并获得特征的权重。

2024-03-26 12:17:21 335

原创 特征选择/提取

简述特征选择

2024-03-25 10:49:00 217

原创 异常值检测

离群值检测(Outlier Detection)是指在给定数据集中,识别和定位与其他数 据点明显不同的异常观测值。离群值也被称为异常值、异常点或异常数据,它们 与其他数据点的特征、分布或行为存在显著的偏差。

2024-03-25 10:27:55 1571

原创 GBoosting回归模型

GBoosting回归模型

2024-03-24 12:26:32 225

原创 python热力图绘制

python热力图绘制

2024-03-24 12:11:46 220

Kaggle比赛:成人人口收入分类文件

“成人人口收入分类”是一个典型的数据挖掘和机器学习应用问题。该项目基于1994年美国人口普查局的数据集,包含大量的个人信息,如年龄、工作类别、教育程度、婚姻状况、职业、种族、性别等。通过对这些数据的分析,旨在构建一个能够准确预测个人年收入是否超过50,000美元的分类模型。该项目的目标是构建一个能够准确预测个人年收入是否超过50,000美元的分类模型。具体来说,模型需要能够利用给定的特征变量,对未知的个人数据进行预测,并给出相应的分类结果。为了实现这一目标,项目参与者需要选择合适的机器学习算法,对数据集进行预处理、特征选择、模型训练和评价等多个步骤。由于数据存在不平衡问题,传统的分类准确度或分类误差等指标可能无法准确地反映模型的性能。数据存在不平衡问题传统的分类准确度或分类误差等指标可能不行。“成人人口收入分类”是一个具有挑战性和实用性的机器学习项目。通过对给定的个人数据进行分析和建模,可以构建出能够准确预测个人年收入水平的分类模型,为相关领域的研究和应用提供有力支持。同时,该项目也涉及到数据预处理、特征选择、模型训练和评价等多个环节,需要参与者具备扎实的机器学习理论知识和实践经验。

2024-06-17

Kaggle比赛:肥胖风险的多类预测

有几个好兄弟找我找数据资源,之前没找到怎么发资源,今天把它分享出来方便大家获取。这场比赛的核心目标是利用多元化的数据因素,精确地预测每个个体与心血管疾病相关的肥胖风险。给了三个csv文件,train.csv用来训练模型,test用来测试结果,sample_submission.csv是给的提交的示例。submission.csv是自己创建的,用来保存模型测试结果产生并要提交的结果。首先,train.csv这个文件包含了大量的训练数据,其中列举了多种可能与肥胖和心血管疾病相关的特征。值得注意的是,这些特征并不都是数值型的;很多是以文本或类别形式存在的。因此,我们的首要任务是将这些非数值型数据转化为机器学习模型能够理解的数值格式。我是利用map处理非数值列,这一转换过程至关重要,因为它会直接影响到模型能否准确捕捉数据中的潜在规律。转换完成后,接下来的步骤是选择并应用各种机器学习模型。这个过程就像是在试探不同的路径,以找到通往预测目标的最佳路线。这个最终的结果准确率可以达到一个0.84的,我在之前的文章里用了随机森林模型,大家可以根据这个一个简单的预测模型大家可以根据这个模型进行调优。

2024-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除