- 博客(12)
- 收藏
- 关注
原创 python打卡 day12 (5.4)
1. 关注输入和输出的格式和数据2. 关注算法的的优缺点和应用场景3. 简要了解模型本身的实现逻辑1.遗传算法简述把不同的超参数组合想象成一群“个体”。表现好的个体(高验证分)更有机会“繁殖”(它们的参数组合会被借鉴和混合),并可能发生“变异”(参数随机小改动),产生下一代。表现差的个体逐渐被淘汰。一代代下去,种群整体就会越来越适应环境(找到更好的超参数)。在大范围“撒网”搜索,通过优胜劣汰和随机变动逐步逼近最优解。适合参数空间很大、很复杂的情况。
2025-05-04 21:53:33
1810
原创 python打卡 day11 (5.2)
最佳参数: OrderedDict([('max_depth', 13), ('min_samples_leaf', 1), ('min_samples_split', 9), ('n_estimators', 50)])最佳参数: OrderedDict([('n_neighbors', 14), ('p', 1), ('weights', 'uniform')])--- 网格搜索优化LightGBM (训练集 -> 测试集) ------ 网格搜索优化K近邻 (训练集 -> 测试集) ---
2025-05-02 16:47:58
2021
原创 python打卡 day10 (4.29 4.30凌晨)
缺失值可以考虑使用均值填充、中位数填充或者基于其他相关特征进行回归预测填充。对象类型需要先将其转换为合适的数值类型再进行处理。若某特征对目标变量影响较大,可尝试用多重填补法等较为复杂的方法进行填充;若影响较小,也可直接删除含有缺失值的行,但要注意可能会导致数据量损失较大。特征的类别数较少且没有明显的顺序关系,独热编码较为合适;如果有一定的顺序关系,可以考虑标签编码。对于数值型特征,可以通过箱线图等方法检测异常值。如果存在异常值,需根据实际情况决定是否进行处理。
2025-04-30 00:21:41
1535
原创 python打卡 day9 (4.28)
'coolwarm' 是一种常见的颜色映射方案,它会将负数用冷色调(如蓝色)表示,正数用暖色调(如红色)表示,数值为 0 则用白色表示,这样可以清晰地展示正相关和负相关的情况。vmin=-1 和 vmax=1 为可选参数,分别用于指定颜色映射的最小值和最大值。在相关性系数矩阵中,皮尔逊相关系数的取值范围是 -1 到 1,因此将 vmin 设置为 -1, vmax 设置为 1,可以确保颜色映射覆盖整个相关性系数的取值范围。enumerate()函数返回一个迭代对象,该对象包含索引和值。2.借助循环遍历特征。
2025-04-28 21:49:11
745
原创 python打卡 day8 (4.27)
一种无序、可变的数据类型,用于存储键(Key)和值(Value)之间的映射关系。字典是一种高效的数据结构,可以用于快速查找和检索数据。因为字典是无序的所以不支持索引和切片。元素以键值对存在,key(键值):value(实值)常规操作:增、删、查、改、遍历、获取长度、更新。
2025-04-27 22:18:06
765
原创 python打卡 day7(4.27)
可以看到其实没必要这么多行代码,显示前十行数据就可以大致判断,看到均为int数值,没有object变量(离散变量),同时看到大部分列为0/1、0/1/2、0/1/2/3,判断离散量已经过独热编码,现在只需要重新人为定义离散列;列名: ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target']数据尺寸: (303, 14)
2025-04-27 18:42:26
554
原创 python打卡 day6 (4.26 4.27凌晨)
单特征可视化时,即使是连续变量,如果跨度不大(比如虽然是整数,但是只有几个有限值,或是相邻值之间跨度比数值本身大),其实还是直方图更好看一些;跨度很大(浮点数,相邻值跨度远比数值本身小)再用箱线图。p.s.看着一点都不难,每行代码都能理解,但自己一上手敲就很费劲,各种报错。还是练得太少了,这就是为什么一定要追求知行合一。其实需要根据问题来提前预估需要选择的图表形式和对应的x轴和y轴,而不是先画图后分析。1.单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图。2.特征和标签关系可视化。
2025-04-27 01:06:48
303
原创 python打卡 day5 (4.24,4.25凌晨)
这一部分是分解操作与练习,以Years in current job列为例熟悉代码流程。3. 对独热编码后的变量转化为int类型。2. 对离散变量进行one-hot编码。这一部分是完整对所有缺失值进行填充。4.对所有缺失值进行填充。1. 读取data数据。
2025-04-25 00:55:50
286
原创 python打卡day2 (4.21完成)
题目:定义两个字符串变量,完成拼接,并将结果存储在新变量;计算拼接后字符串的长度并继续存储;获取拼接后字符串的第一个字符,继续存储在新变量中。最后分行打印。
2025-04-21 18:35:51
182
原创 python打卡 day1(4.21完成)
计算这两个变量的和,并将结果存储在一个新的变量a中;计算这两个变量的商存到b;计算这两个变量的余数存到c。使用f-string打印出类似 “20加8的结果是:28” 的信息,分三行打印。计算折扣后的价格,并将结果存储在变量。然后,使用 f-string 分两行打印最终价格和节省金额。print函数使用;定义两个浮点数变量,price 赋值19.9,函数将每个变量的值单独打印,每个值占一行。创建两个变量,name存储名字(字符串。将这两个变量组合成一句话并打印出来。定义两个整数变量,num1赋值为。
2025-04-21 18:11:51
237
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人