一、数据挖掘概述

数据挖掘介绍

1.数据挖掘的定义

数据挖掘:指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘在面向用户的互联网产品中发挥着及其重要的作用。
在这里插入图片描述

2 数据挖掘的对象

常见的数据挖掘对象有以下7大类

  • 关系型数据库(MySQL)、非关系系数据库(NoSQL);
  • 数据仓库/多维度数据库(HDFS/Hive);
  • 空间数据(如地图信息)
  • 工程数据(如建筑、集成电路的信息)
  • 文本和多媒体数据(如 文本、图像、音频、视频数据)
  • 时间相关的数据(如历史数据或股票交换数据)
  • 万维网(如半结构化的HTML、结构化的XML以及其他网络信息)。

3 数据挖掘的过程

  • 数据准备
  1. 数据集成:了解领域特点,确定用户需求,处理数据中的遗漏和清洗脏数据;
  2. 数据选择:从原数据库中选择相关数据或样本,从而辨别出需要需要分析的数据集合,缩小处理范围,提高数据挖掘的质量;
  3. 数据预处理:检查数据的完整性及一致性,消除噪声。
    在这里插入图片描述
  • 数据挖掘
  1. 确定挖掘目标:确定要发现的知识类型;
  2. 选择算法:根据确定的目标选择合适的数据挖掘算法
  3. 数据挖掘:运用所选算法,提取相关知识并以一定的方式表示。
  • 结果表达与解释
    根据用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具交给决策者。
  1. 模式评估:对在数据挖掘步骤中发现的模式(知识)进行评估;
  2. 知识表示:使用可视乎和知识表示相关技术,呈现所挖掘的知识。

4 数据挖掘的方法

  • 数据挖掘的方法分类
  1. 挖掘任务:分类、预测、聚类、关联规则、异常和趋势发现;
  2. 挖掘方法:统计方法和机器学习学习方法。
  • 统计方法
    回归分析、判别分析、聚类分析、探索性分析;
  • 机器学习方法
    神经网络、集成学习、遗传算法
  • 分类
    根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。
    在这里插入图片描述
  • 聚类
    用于从数据及中找出相似的数据并组成不同的组。与分类模型不同,聚类中没有明显的目标变量作为数据的属性存在
    在这里插入图片描述
  • 关联分析
    关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
    在这里插入图片描述

5 数据挖掘的应用

  • 互联网巨头
    谷歌和百度用数据挖掘算法对广告点击率进行预测;
  • 电子商务巨头
    亚马逊和阿里巴巴通过数据挖掘来预测用户购买商品的可能性;
  • 零售巨头
    沃尔玛,通过分析客户购买记录寻找不同商品之间的可能性,从而更合理上架不同品类商品;
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值