数据挖掘
文章平均质量分 93
穆月月
大二在学计科!
展开
-
数据挖掘-实验二笔记(分类 Classification, 6.1 脊椎动物(Vertebrate)数据集,决策树/SVM)
此参数指示pandas应该从CSV文件的第一行推断列名。换句话说,CSV文件的第一行被视为包含列名的标题。这段代码对data中的'Class'列进行了替换操作。具体来说,它使用replace方法将'fishes'、'birds'、'amphibians'和'reptiles'这些值替换为'non-mammals'。这意味着将这些类别中的动物都重新分类为非哺乳动物。使用 Pandas交叉表 来检查“Warm-blooded”和“Gives Birth”属性与类别标签(是否为哺乳动物)之间的关系。原创 2023-11-24 00:15:09 · 1475 阅读 · 1 评论 -
数据挖掘—实验2,聚类分析
本教程说明了使用不同的Python聚类算法实现的示例。k均值、谱聚类和DBScan之类的算法旨在创建数据的不相交分区,而单链接,完全链接和组平均算法则旨在生成簇的层次结构。原创 2023-12-22 23:08:39 · 1568 阅读 · 0 评论 -
数据挖掘—数据处理基本操作
中,对于每个学生和班级组合('personid' 和 'clazzid'),统计其参加考试的次数('person_clazz_exam_count')。最终的结果是一个包含每个班级平均分和标准差的 DataFrame,其中包含 'clazzid'、'class_mean' 和 'class_std' 三列。在这里,它将 'new_score' 列的非缺失值应用到 'score' 列,如果 'new_score' 列的值是缺失的,则保持 'score' 列不变。这有助于分析每个学生在不同班级中的成绩表现。原创 2023-12-27 14:39:43 · 1168 阅读 · 2 评论