Python数据挖掘
文章平均质量分 68
Champion.XL
开源 && 前端 && 区块链
展开
-
泰迪杯数据挖掘挑战赛—机器学习(三)
机器学习(三)数据处理完之后,就可以进行机器学习了在处理A题时,我们小组主要是采用了两种机器学习的方法。逻辑回归与KNN算法。在上一篇文章中,我已经说过了需要选取一个指标来评判选择的机器学习模型的好坏。其中一个方法是使用混淆矩阵,一般是选择混淆矩阵中的准确率来作为模型的评判标准。但是这次A题给定的数据太过于失衡,虽然做了数据不平衡处理,但是在训练模型的时候依然会有影响。比如说:训练集中有1000个公司是非造假公司,10个公司是造假公司;测试集有100个样本,其中有10个造假公司。将训练集通原创 2021-05-18 00:34:12 · 668 阅读 · 0 评论 -
泰迪杯数据挖掘挑战赛—机器学习(二)
机器学习(二)机器学习(二),用于机器学习的数据一定要是数据平衡的,如果数据严重失衡的话,那么对于机器学习来说,可能会学习不出什么出来。就好比这次的赛题来说,造假公司与非造假公司的数量比达到了1:100,如果直接使用这样不平衡的数据去进行机器学习,那么就会导致训练的结果偏向于非造假公司,可能到时候预测出来的结果会公司全是非造假公司。数据不平衡处理(过采样)在进行机器学习之前,我们首先要搞清楚,选着哪一种机器学习来建立模型,在比较机器学习时,用什么指标进行比较。这是我们在进行机器学习之前需要考虑的。原创 2021-05-15 23:10:03 · 469 阅读 · 0 评论 -
泰迪杯数据挖掘挑战赛—机器学习(一)
机器学习(一)之前文章一、数据预处理(一)二、数据预处理(二)之前的两篇文章主要讲解了在需要做的准备工作,数据预处理。数据处理完成之后,我们接下来就要做机器学习来预测数据了。数据不平衡处理需要注意:这次的A题,在数据上是非常失衡的从图中可以看出,造假公司与非造假公司数量相差极大,样本数据严重失衡。严重失衡的样本将会导致在后面的机器学习中,使得学习结果更加偏向于非造假公司,导致预测结果出现较大的偏差。本题在处理数不平衡时主要是考虑了下采样算法与过采样算法。过采样处理过采样主要是通过合成原创 2021-05-14 22:13:03 · 1511 阅读 · 0 评论 -
泰迪杯数据挖掘挑战赛—数据预处理(二)
数据预处理(二)原创 2021-05-13 00:27:39 · 1530 阅读 · 0 评论 -
泰迪杯数据挖掘挑战赛—数据预处理(一)
第九届泰迪杯数据挖掘挑战赛在这里分享一下,我参加的第九届泰迪杯数据挖掘挑战赛的一下小小的经验!!!我们小组在这次比赛中选择的赛题是A题。对于数据挖掘,我们小组就是那种纯属小白的,菜鸟中的菜鸟。。。。。进入正题:参加数据挖掘挑战赛,首先要搞清楚数据挖掘的整个过程。数据预处理在数据挖掘中是非常非常重要的就拿我们这次的 A题来说,题目所给的数据一共有两万多条,有360多个指标,拿到数据首先做的就是预处理了1.空值处理主要是针对A题做的预处理。拿到A题数据,首先发现有很多指标是没有值的,因为我们原创 2021-05-10 00:41:47 · 2935 阅读 · 2 评论