数据挖掘有哪些工作流程？

最新推荐文章于 2023-07-07 15:15:00 发布

weixin_30919429

最新推荐文章于 2023-07-07 15:15:00 发布

阅读量459

点赞数

原文链接：http://www.cnblogs.com/amengduo/p/9587488.html

版权

数据挖掘有哪些工作流程？

数据挖掘工作流程：

一、收集数据

收集数据一般是补充外部数据，包括采用爬虫和接口，获取，补充目前数据不足部分。Python scrapy,requests是很好的工具。

二、准备数据

主要包括数据清洗，预处理，错值纠正，缺失值填补。连续值离散化，去掉异常值，以及数据归一化的过程。同时需要根据准备采用的挖掘工具准备恰当的数据格式。

三、分析数据

通过初步统计、分析以及可视化，或者是探索性数据分析工具，得到初步的数据概况。分析数据的分布，质量，可靠程度，实际作用域，以确定下一步的算法选择。

四、训练算法

整个工作流最核心的一步，根据现有数据选择算法，生成训练模型。主要是算法选择和参数调整：

1.算法的选择，需要对算法性能和精度以及编码实现难度进行衡量和取舍。 (甚至算法工具箱对数据集的限制情况都是算法选择考虑的内容)。实际工程上，不考虑算法复杂度超过O(N^2)的算法。Java的Weka和Python的Scipy是很好的数据挖掘分析工具，一般都会在小数据集做算法选择的预研。

2.参数调整。这是一门神奇的技能，只能在实际过程中体会。

五、测试算法

这一步主要是针对监督算法(分类,回归)，为了防止模型的Overfit，需要测试算法模型的覆盖能力和性能。方法包括Holdout，还有random subsampling.

非监督算法(聚类)，采用更加具体的指标，包括熵,纯度,精度,召回等。

六、使用,解释,修正算法

数据挖掘不是一个静态的过程，需要不断对模型重新评估，衡量，修正。算法模型的生命周期也是一个值得探讨的话题。http://www.cda.cn/view/17711.html

转载于:https://www.cnblogs.com/amengduo/p/9587488.html

weixin_30919429

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘有哪些工作流程？

数据挖掘有哪些工作流程？数据挖掘工作流程：一、收集数据收集数据一般是补充外部数据，包括采用爬虫和接口，获取，补充目前数据不足部分。Pythonscrapy,requests是很好的工具。二、准备数据主要包括数据清洗，预处理，错值纠正，缺失值填补。连续值离散化，去掉异常值，以及数据归一化的过程。同时需要根据准备采用的挖掘工具准备恰当的数据格式。三、分析数据...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。