kdd数据集_数据分析的基本概念

  • 基本流程
    • 商业理解 - 理解需求,定义目标
    • 数据理解 - 探索数据,认知数据
    • 数据准备 - 收集数据,数据清洗、集成等
    • 模型建立 - 选择和应用模型,并加以优化
    • 模型评估 - 检查模型,确认模型符合目标
    • 上线发布 - 将获取的知识转化成报告或者实现数据挖掘过程
  • 商业智能BI、数据仓库DW、数据挖掘DM间的关系
    • 商业智能(Business Intelligent,缩写BI)
      是基于数据仓库,经过数据挖掘后,得到商业价值的过程。
    • 数据仓库(Data Warehouse,缩写DW)
      相当于BI的地基。是数据库的升级概念,逻辑上都是通过数据库技术来存储数据,不过数据仓库的量更庞大。数据仓库由原有的多个数据来源中的数据进行汇总、整理而得。
    • 数据挖掘(Data Mining,缩写DM)
      数据挖掘的核心包括分类、聚类、预测、关联分析等任务。
    • 数据仓库是金矿,数据挖掘是炼金术,商业报告是黄金
  • 元数据和数据元
    一本书的信息包括书名、作者、出版社、ISBN、出版时间、页数、定价等多个属性的信息,所有属性加起来就叫元数据,每个属性就是数据元
    • 元数据指描述其他数据的数据,也叫“中介数据”
      最大的好处是使信息的描述和分类实现了结构化​
    • 数据元指最小数据单元
  • 数据挖掘流程
    数据挖掘英文解释为Knowledge Discovery in Database,简称KDD,也就是数据库中的知识发现
    • 数据挖掘的重要任务
      • 分类
        通过训练集得到分类模型,使用该模型对其他数据进行分类。数据可以分为训练集和测试集,训练集用于训练机器生成自我分类模型,然后通过该模型对测试集进行分类
      • 聚类
        将数据聚类成几个类别,常用于数据划分
      • 预测
        通过当前和历史数据预测未来趋势
      • 关联分析
        发现数据中的关联规则,广泛用于购物篮分析,或事务数据分析
    • 数据预处理
      • 数据清洗
        主要是去除重复数据,去干扰数据以及填充缺失值
      • 数据集成
        将多个数据源存放到同一个数据存储中
      • 数据变换
        将数据转换成适合数据挖掘的格式。
    • 数据后处理 - 将模型预测的结果进一步处理后导出
    • 白话数据概念(以追女孩为例)
      • 商业智能会告诉你追哪个,成功率多大
      • 数据仓库存储了女孩的相关信息,每个女孩的姓名、生日、爱好和联系方式等,具体信息就是数据元,加起来就是元数据
      • 数据挖掘则会帮助你确定追哪个女孩,并整理好数据仓库,这里会使用各种算法帮助做决策。
        • 分类算法
          判断女孩属于御姐、萝莉、女王哪个分类
        • 聚类算法
          若认识的女孩过多,可以将女孩分成多个群组,再对群组进行分析决策
        • 关联分析算法
          可了解女孩的闺蜜是谁
        • 数据清洗
          若很多朋友都介绍了同个女孩,需要去重​
        • 数据集成
          把不同朋友推荐的女孩信息整合
        • 数据变换
          数据统计的体重单位可能不同,需要转换成相同单位
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值