所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。因为这个数据是隐式的,因此想要挖掘出来并不简单。那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集、数据可视化、数据预处理、准备模型输入以及训练模型五大步骤,下面让中琛魔方来详细分析一下吧!
数据挖掘的步骤:
第一步:数据收集
通俗来讲,我们把数据挖掘可以看作是想要炒一盘可口的菜肴。那么,首先第一步就是去菜市场买菜。同样的,我们要从数据中找到需要的信息,第一步就是收集数据。
第二步:数据可视化
就好比你去买菜的时候,肯定要好好挑选一下,争取买到比较新鲜的蔬菜。同样的,数据挖掘的第二个步骤,就是再有了数据之后,还要看看拿来的数据长啥样。因此,我们可以利用各种可视化库来观察一下数据的内容,比如matplotlib或seaborn。
第三步:数据预处理
买完菜回到家我们要做的就是洗菜,把附着的泥土和残枝烂叶去掉,不然会影响我们的口感。通过上一步的可视化,我们可以发现数据里面有没有“残枝烂叶”,也就是我们说的异常值。异常值包括格式有问题的数据,例如年龄信息填的不是数字,或者信息根本就不符合逻辑,比如年龄填的200岁。
大家填过各种调查问卷吧?很多人在填写的时候,遇到那些不是必须填的地方一般都会空着不填。这就导致数据集里除了异常值,还有一个经常会遇到的就是缺失值。我们也会通过一些手段来弥补一下这些空缺。就