数据挖掘第一周周报

最新推荐文章于 2024-07-18 12:57:54 发布

qq_32019707

最新推荐文章于 2024-07-18 12:57:54 发布

阅读量305

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/qq_32019707/article/details/108853915

版权

#数据挖掘周报
##数据分析
###本周数据挖掘的进度主要是在对训练数据的预处理，在拿到训练数据的时候，首先是分析了一下训练数据集，有47个维度，面对如此多的列，其中有一些不太主要或者说是对结果影响较小的列，我首先是对每一列所代表的涵义进行了就，在挑选出了其中的15列作为训练维度，如下图所示：
在这里插入图片描述
##对文本的处理
###由于本人不会python，所以只能用C++，对于读取文件也没有想到可以直接读出数据的办法，只能是先把.csv文件读入字符串的形式，通过处理字符串，转化字符串为数字进行得到其中的数据，虽然速度比较慢，但是还是得到了数据矩阵，得到的数据矩阵包含了我提取出来的15列数据，以及一个标签列is_default列，经过同同样的处理，我把Test_A数据也进行了处理，只不过少了标签列，在得到我的数据矩阵以后，我上周尝试使用了KNN算法进行训练。在训练的过程中，由于数据量比较大，我在Train.csv数据集中取了300行进行1NN的训练，用另外三百行进行对结果的分析，本来还想训练几个K取一下最好模型的，但是总感觉knn还有我处理数据的方法太墨迹了，所以感觉这个方向不对，因为我在跑800000的数据集和200000的分类时，数据处理特别特别慢，慢到一晚上都出不来结果，以至于我都不想去优化算法，下一步的目标还是应该放在数据处理上比较多点为好，毕竟还有时间，数据处理好了下面算法实现是比较快的。下一步的话，可能在处理数据之后进行神经网络和逻辑回归等分类方法进行学习和尝试，在钉钉的交流群中，有一些过于python的方法，接下来也应该好好理解一下如何使用和实现。
在这里插入图片描述
###总的来说，上面一周让我对数据集有了一定的了解，对数据进行一下预处理和分析，通过自己处理过的数据，简单的实现了一个1NN的分类，虽然结果没有跑出来，但是在自己随机取的训练集验证集里面还是有点效果的，这给了我动力。但是对于数据的分析还是存在不细致的问题，可能需要进一步降维，多找找每一列之间的关系，在每一列之间数值上的差距过大时，是不是有什么归一化的操作，我也要多了解。最后就是给自己加加油，有预感一定可以完成的。