- 博客(5)
- 收藏
- 关注
原创 数据分析-预测泰坦尼克号旅客存活率
它将数据集划分为k个大小相等的子集,每次使用其中一个子集作为测试集,其余k-1个子集作为训练集,这样可以获得k个模型评估结果,最后取平均值作为最终评估指标。该函数会自动划分数据集,训练模型并评估性能,最终返回一个列表,包含每一折的评估结果。AUC的取值范围为[0,1],值越大,模型性能越好。我们通常会从一个基准模型(baseline model)开始,然后尝试其他模型并进行比较,最终选择泛化能力或性能较好的模型。因此,在实际应用中,我们应当非常重视模型评估环节,并选择合适的评估方法来全面评价模型。
2024-03-16 18:09:55 1830 1
原创 DATAWHALE学习笔记2-数据分析
再用plot的kind='bar’生成柱状图,stacked=True使柱状图堆积在一起,从而可以看出各组占比情况。然后用seaborn的countplot绘制分组计数的柱状图,x="Pclass"为坐标轴,hue="Survived"为分组条件。先按票价分组,计算出各票价下生存/死亡人数的频数,分别对结果进行降序/不排序。折线图适合展示数据随变量的变化趋势,可以看出在生存/死亡人数随票价的变化情况,以及数据是否有序等。柱状图适合对比不同类别的数据统计值,这里一眼可以看出男性和女性的生存人数差异情况。
2024-03-14 22:04:21 1448
原创 Datawhale学习笔记:Sora技术原理
基于Transformers的架构的Diffusion模型设计了一个简单而通用的基于Vision Transformers(ViT)的架构(U-ViT),替换了latent diffusion model中的U-Net部分中的卷积神经网络(CNN),用于diffusion模型的图像生成任务。随着噪声的逐步引入,原始数据的信息会逐渐受到破坏,直至在一定步数后,数据几乎完全失去了原有的特征,近乎变为纯粹的噪声信号。代码库链接:https://github.com/01-ai/Yi/tree/main/VL。
2024-03-13 21:47:11 753
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人