Python数据挖掘分析
文章平均质量分 91
coder_风逝
微信号:coder_0101 微信公众号:Python数据挖掘分析
展开
-
如何正确拆分数据集?常见方法最全汇总
将数据集划分为训练集(Training)和测试集(Testing)是机器学习和统计建模中的重要步骤:训练集(Training):一般来说Train 训练集会进一步再分为 Train 训练集与 Validation 验证集两部分,以评价不同参数组合的效果,以确定最终的模型测试集(Testing):Test 测试集自始至终没有参与到模型的训练过程;它的目的只有一个:在确定一个最终模型后,评价其泛化能力原创 2024-10-04 09:47:22 · 996 阅读 · 0 评论 -
数据清洗第3篇章 - 数据异常处理
我们将从易到难来讲述数据清洗系列三篇章,本文为第三篇章:数据异常处理,包括基础常量法、标准差法、四分位距法、Isolation Forest 机器学习方法,我们将理论和实践结合,层层递进一步一步掌握缺数据异常的识别、处理方法。原创 2024-10-03 08:47:41 · 563 阅读 · 0 评论 -
数据清洗第2篇章 - 数据转换处理
本文,我们详细介绍了在数据清洗中我们可以如何进行数据转换,包括数据映射、数据替换、数据离散化、数据标准化、数据归一化,希望对阅读本文的读者有一定的学习提升和借鉴启发,不足之处也欢迎留言指出。原创 2024-10-02 08:12:46 · 609 阅读 · 0 评论 -
数据清洗第1篇章 - 处理缺失值和重复值
数据清洗是数据分析过程中至关重要的一步,它确保数据的准确性、一致性和完整性。这不仅有助于提高分析结果的可靠性和有效性,还能为算法建模决策提供高质量的数据基础。在进行数据分析和建模的过程中,大量的时间花在数据准备上:加载、清理、转换和重新排列,这样的工作占用了工程师80%以上的时间。所以掌握常用的数据清洗方法,将帮助我们能更高效、更高质量完成数据清洗工作。我们将从易到难来讲述数据清洗系列三篇章,本文为第一篇章:处理缺失值和重复值,我们将理论和实践结合,层层递进一步一步掌握缺失值和重复值的处理方法。原创 2024-10-01 13:40:58 · 676 阅读 · 0 评论