- 博客(40)
- 收藏
- 关注
原创 Linux文件权限详解
在Linux系统中,文件权限是保护文件和目录的重要机制之一。理解文件权限不仅是系统管理者的基本技能,也是开发人员、安全专家以及任何使用Linux系统的人必备的知识。
2024-10-10 10:21:16 1006
原创 SQL:子查询
子查询是SQL中强大的功能之一,它允许在一个查询内部嵌套另一个查询,以便处理更复杂的逻辑或数据检索需求。子查询可以用在SELECTFROMWHEREHAVINGINANYALL等子句中,根据使用场景和目的的不同,子查询可以分为多种类型。
2024-09-13 15:18:22 1243
原创 最小二乘法
最小二乘法(Least Squares Method)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
2024-08-07 11:07:50 329
原创 Datawhale AI 夏令营 从零入门 AI for Science(AI + 经济)
Datawhale AI 夏令营 从零入门 AI for Science(AI + 经济)
2024-08-02 11:05:19 306
原创 过拟合(Overfitting)
过拟合(Overfitting)是机器学习中的一个重要概念,它指的是模型在训练数据上表现得过于优秀,以至于在训练集上达到了很高的准确率,但在未见过的数据(测试集或实际应用中的数据)上表现却大幅下降的现象。这通常意味着模型学习到了训练数据中的噪声或细节,而非数据的通用规律。
2024-04-03 23:55:43 736
原创 数据的统计信息
test_data = pd.read_csv(r"C:\Users\11794\Desktop\新建文件夹 (2)\test.csv", encoding='utf-8', encoding_errors='replace')data = pd.read_csv(r"C:\Users\11794\Desktop\新建文件夹 (2)\train.csv", encoding='utf-8', encoding_errors='replace')# 假设这是您想要保留的所有列,并确保没有空值。
2024-04-01 12:46:31 309
原创 数据的统计描述
热力图(Heatmap)在数据分析中是一种非常有用的可视化工具,它可以通过色彩变化来直观地展示数据矩阵中各个元素值的大小。:在统计和数据科学中,热力图常被用来表示不同变量之间的相关性。在这种情况下,热力图的每个单元格通常显示两个变量之间的相关系数,颜色越深表示相关性越强,可以是正相关也可以是负相关。这有助于识别哪些变量是高度相关的,从而可能存在多重共线性问题,或者在特征选择时可以考虑剔除一些冗余特征。:热力图可以方便地比较数据矩阵中的值。
2024-04-01 12:28:32 1874
原创 kaggle竞赛:肥胖风险的多类预测
本次比赛的目标是利用各种因素来预测与心血管疾病相关的个体肥胖风险。给了三个csv文件,train.csv用来训练模型,test用来测试结果,sample_submission.csv是给的提交的示例。submission.csv是自己创建的,用来保存模型测试结果产生并要提交的结果。这个是train.csv里的各个特征,大概看了一下很多列不是数值型的所以第一步就是要把这些非数值类型的数据转换为数值类型的。
2024-03-30 21:02:45 1539
原创 Pearson 特征选择
Pearson 线性相关系数是最常用的线性相关系数。最适用数据的形式:线 性数据、连续且符合正态分布、数据间差异不能太大。步骤:1.计算Pearson相关系数:对于每个特征与目标变量,计算它们之间的Pearson相关系数。这个系数可以衡量两个变量之间的线性相关性,其值域为[-1, 1]。值为1表示完全正相关,值为-1表示完全负相关,值为0表示无相关性。2.设定阈值:设定一个阈值,例如0.3或0.5,用于筛选相关性较强的特征。这个阈值可以根据实际问题和数据集的特性进行调整。
2024-03-27 13:16:23 579
原创 树模型特征选择
树模型特征选择的目的是通过选择最相关的特征来构建具有较高预测能力的树模型。树模型特征选择的原理基于两个关键概念:纯度和信息增益。纯度是指节点中目标变量的混杂程度,信息增益是指在某个特征的条件下,目标变量的不确定性减少的程度。树模型特征选择的方法通常包括基于纯度的方法(如基尼指数、熵)和基于信息增益的方法(如信息增益、信息增益比)。
2024-03-27 13:01:00 832
原创 L2 范数特征选择
L2范数特征选择(L2-normfeatureselection)是一种常用的特征选择方法,它通过对特征权重进行正则化,从而选择出最具有预测能力的特征。
2024-03-26 12:28:50 356
原创 特征选择中的方法
在特征选择中,L1范数被用来作为一个正则化项,它能够促使模型中的某些特征权重变为0,从而实现特征的稀疏化。通过将特征权重稀疏化,L1范数特征选择可以排除对预测任务没有贡献的特征,提高模型的泛化能力和解释性。通过上述流程,L1范数特征选择可以找到对预测任务最重要的特征,并且将无关的特征权重置为0,从而实现了特征选择的目的。L1范数特征选择是一种常用的特征选择方法,它通过对特征权重进行稀疏化,从而选择出最具有预测能力的特征。根据特征的权重,选择具有重要性的特征。使用训练数据拟合机器学习模型,并获得特征的权重。
2024-03-26 12:17:21 335
原创 异常值检测
离群值检测(Outlier Detection)是指在给定数据集中,识别和定位与其他数 据点明显不同的异常观测值。离群值也被称为异常值、异常点或异常数据,它们 与其他数据点的特征、分布或行为存在显著的偏差。
2024-03-25 10:27:55 1571
Kaggle比赛:成人人口收入分类文件
2024-06-17
Kaggle比赛:肥胖风险的多类预测
2024-06-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人