- 博客(13)
- 收藏
- 关注
原创 DAY13启发式算法:从经验出发的智能求解策略
启发式算法(Heuristic Algorithm)是一类设计的求解算法,核心目标是在为复杂优化问题找到(而非严格数学意义上的最优解)。它诞生于对 “NP 难问题” 的求解挑战,是应对大规模、高复杂度问题的核心技术之一。
2025-12-19 21:04:38
722
原创 DAY12:随机森林原理与贝叶斯优化
把一堆「略有差异」的决策树训练出来,对新样本预测时,让所有树各自输出结果,最终通过「投票」(分类任务)或「平均」(回归任务)得到最终答案,相当于 “多个专家会诊” 比 “单个专家判断” 更靠谱。
2025-12-18 21:11:34
649
原创 DAY11:机器学习常见调参方式解析:网格搜索、随机搜索与贝叶斯优化
调参方式核心特点计算成本搜索效率适用场景网格搜索暴力枚举所有组合极高(指数级)低(小空间优,大空间差)低维度、小范围超参数搜索随机搜索随机采样参数组合中(采样次数可控)中(中高空间优于网格)中高维度、快速筛选贝叶斯优化基于概率模型智能采样低(利用历史信息)高(高空间优势显著)高维度、高计算成本模型@浙大疏锦行。
2025-12-17 21:25:30
726
原创 DAY10 机器学习建模与评估
数据泄露是指模型在训练过程中,意外接触到了本应 “不可见” 的测试集信息或未来信息,导致训练时的性能(准确率、召回率等)虚高,但在真实场景中泛化能力极差(相当于考试前偷看了答案,分数不作数)。随机种子是控制伪随机过程初始状态的数值,让机器学习中的随机操作(如数据打乱、模型初始化、采样)产生 “固定的随机结果”—— 本质是将 “不可控的随机” 变为 “可复现的随机”。
2025-12-03 22:16:46
1008
原创 DAY6 数据可视化
针对连续特征用箱线图、小提琴图、核密度图来进行可视化,离散特征用直方图,特征与特征之间的关系用热力图来表示。注意:解决版本之间的问题,以及清华源的问题。
2025-11-29 23:56:42
114
原创 DAT5 离散特征的处理
试想一下,如果先独热编码再进行缺失值的补全,例如一个离散特征是颜色,共有红、蓝、绿三个类别,通过独热编码将会分成三个特征:红、蓝、绿,那么对于其中的一个编码后的特征“红”来说,这一列值就只有0或者1,那么补充的值大概率也是0(假设三个颜色数量差不多),以此类推,那就导致这个缺失值在红、蓝、绿三个特征中都是“0”,数据填补就发生的错误,所以应该先填补缺失值,再进行独热编码,最保险。对于离散特征,例如:颜色:红蓝绿,这类文本信息,就需要进行独热编码,来将文本信息转化为熟悉信息。
2025-11-28 23:19:34
162
原创 DAY2 字符串与比较运算
字符串是从0开始计数的,如:Hello python,加上空格一共12个字符,索引从左到用依次是:0、1、2...11。定义两个字符串变量,str1 赋值为 "Hello",str2 赋值为 "Python"。定义:password = "python123" min_length = 8。注意:int和float的转换,要求被转换的变量必须是数字。2 后 11 个字符: Programming。1 拼接结果: HelloPython。1 前 6 个字符: Python。
2025-11-18 16:03:05
555
原创 DAY1 变量与格式化字符串
定义三个变量 a, b, c,并分别将整数 1, 2, 3 赋值给它们。然后,使用 print () 函数将每个变量的值单独打印出来,每个值占一行。(只用一个 print () 函数调用就实现分三行的输出效果)
2025-11-17 21:49:13
312
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅