二、物联网大数据之数据挖掘--数据挖掘的流程

1.数据挖掘一般流程

在这里插入图片描述

1.1 业务需求分析

业务需求分析是机器学习算法工程的第一步,是整个项目的基础,也是整个流程当中最重要的环节,主要体现在以下几个方面:

  • 业务是否适合用机器学习算法来解决。
  • 业务目标是否明确,是否单一,是否有其他关联目标。
  • 业务目标的主次关系,因果关系,流程关系。
  • 业务承担对象。
1.2 获取数据

获取数据:获取业务相关数据,用于机器学习项目建模,训练,调参,优化等。

  • 本地存储数据
  • html页面数据
  • 爬虫数据
  • 数据库数据
  • 集群数据
  • 各类数据格式数据
1.3 数据预处理

数据预处理主要是针对数据本身,业务需求,以及算法需求对原始数据进行的一系
列操作。比如:

  • 异常值
  • 缺失值
  • 标准化
  • 方差缩放
  • 特征二值化
1.4 特征工程

特征工程是指从原始数据转换为特征向量的过程。特征工程是机器学习中最重要的 起始步骤,会直接影响机器学习的效果,并通常需要大量的时间。典型的特征工程 包括数据清理、特征提取、特征选择等过程。

1.5 模型选择和训练

在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最 优值。通常对于同一个数据挖掘问题,会有多种数据建模技术。一些技术对数据格 式有特殊的要求。因此,常常需要返回到数据准备阶段。实际操作如下:

  • 选择建模技术(Model):确定数据挖掘算法和参数,可能会利用多个算法;
  • 评估方案设计(Cost Function):设计某种测试模型的质量和有效性的机制;
  • 模型训练(Trainng):在准备好的数据集上进行数据挖掘算法训练,得到一个或多个模型;
  • 模型调参和优化:根据评估方案,确定算法与预期效果的差距,并进行相应的优化。
1.6 模型评估

模型评估是机器学习工程当中比较核心的环节之一,在模型训练完成之后,模型的 质量如何,是否还需要继续迭代,是否已经满足业务需要,都依靠模型评估结果。 因此需要选择一个能反映预测能力的评估指标(evaluation metric)。

常用评估标准
在这里插入图片描述

1.7 模型部署

具体地包括:

  • 实施计划:对在业务运作中部署模型作出计划;
  • 监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;
  • 作出最终报告:项目总结,项目经验和项目结果;
  • 项目回顾:回顾项目的实施过程,总结经验教训,对数据挖掘的运行效果做一个预测。
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值