- 博客(32)
- 收藏
- 关注
原创 机器学习算法竞赛系列二 之数据探索+特征工程
数据探索可以分为三个部分:首先是赛前数据探索(即数据初探),帮助我们对数据有个整体性的认识,并发现数据中存在的问题,比如缺失值、异常值和数据冗余等;其次是竞赛中的数据探索,通过分析数据发现变量的特点,帮助提取有价值的特征,这里可以从单变量、多变量和变量分布进行分析;最后是模型的分析,可以分为特征重要性分析和结果误差分析,帮助我们从结果发现问题,并进一步优化。
2023-11-16 22:53:13 167
原创 Self-Attention与Multi-head Self-Attention
学习来源:https://blog.csdn.net/qq_37541097/article/details/118242600。
2023-08-29 14:12:47 76
原创 训练营第三期笔记一
初赛公开数据包含10296个样本,其中7833个样本为健康样本。每一个样本提供485512个位点的甲基化数据、年龄与患病情况。抽取80%作为训练样本,20%作为测试样本。
2023-08-17 13:50:23 129 1
原创 聚类分析基础
n_clusters是KMeans中的k,表示着要分几类。这是KMeans当中唯一一个必填的参数,默认为8类,但通常聚类结果会是一个小于8的结果。
2023-05-22 17:06:26 994 1
原创 特征工程-特征选择
降维之外的所有特征选择的方法。过滤法更快速,但更粗糙。包装法和嵌入法更精确,比较适合具体到算法去调整,但计算量比较大,运行时间长。当数据量很大的时候,优先使用方差过滤和互信息法调整,再上其他特征选择方法。使用逻辑回归时,优先使用嵌入法。使用支持向量机时,优先使用包装法。迷茫的时候,从过滤法走起,看具体数据具体分析。
2023-05-21 15:56:06 780 1
原创 基于决策树的泰坦尼克号幸存者预测
np.linspace(0,0.5,20) 生成有顺序排列的随机的0-0.5的20个数。网格搜索只能对所有的参数都做选择 就算不带一部分会更正确,网格搜索也不会放弃这个参数。parameters 一串参数和这些参数对应的希望网格搜索的参数的取值范围为。Gini系数取值为0-0.5 entropy 信息熵的取值为0-1。一般做两个参数、两个参数做网格搜索 减少计算量。能够帮助我们同时调整多个参数的技术,枚举技术。计算量大 尽量确定范围后搜索。
2023-05-14 16:42:15 241
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人