第六讲 数据分析基本概念

商业智能(BI Business Intelligence)

基于数据仓库,经过数据挖掘,得到商业价值的过程。

数据仓库(DW Data Warehouse)

是数据库的升级概念,通过数据库技术来存储数据,将原有的多个数据源中的数据进行汇总、整理得到,数据在进入数据仓库前,必须消除数据中的不一致性。

数据挖掘(DM Data Mining)

数据挖掘的核心包括分类、聚类、预测、关联分析等任务。

元数据和数据元

可以将一类事物的多个属性信息定义为元数据,即描述其它数据的数据。使信息的描述和分类实现结构化。
数据元是最小的数据单元。

数据挖掘的流程

数据挖掘的英文解释叫KDD(Knowledge Discovery in Database ),即数据库中的知识发现。

  1. 分类
    通过训练集得到分类模型,然后用这个模型对其他数据进行分类。
  2. 聚类
    通过相似度对数据聚类成几个类别,用聚类做数据划分。
  3. 预测
    通过当前和历史数据来预测未来趋势。
  4. 关联分析
    在数据中发现关联原则。

在这里插入图片描述

数据预处理中,进行:数据清洗、数据集成,以及数据变换。

  1. 数据清洗
    去除重复数据、干扰数据以及填补缺失值

  2. 数据集成
    将多个数据源中的数据存放在一个统一的数据存储中。

  3. 数据变换
    将数据转换成适合数据挖掘的形式。

数据后处理是将模型预测的结果进行进一步处理后再导出。

白话数据概念

(我把原专栏的性别换了一下,嘿嘿)
比如,有两个男生同时追你。
商业智能会告诉你哪个更适合你。
数据仓库中存放了两个男生的相关信息。每个男生的数据有单独的文件夹,里面包含姓名、生日、身高、爱好等信息,这些具体的信息就是数据元,加起来叫做元数据
数据挖掘会帮助你确定接受谁,整理数据,使用各种算法,帮你决策。可能用到分类算法。理工男、正太、阳光型等等。如果认识的男生很多,可以用聚类算法,将他们分成多个群组,再对每个群组的特性进行了解。关联分析法会告诉你他们经常和谁在一起。

然鹅,像我们这中高冷的小仙女,以上假设并不实际。咳咳,把场景换成在相亲的时候。。。
由于数据来源比较多,可能多个大妈给你推荐了同一个男生,就需要数据清洗,进行去重,把不同大妈推荐的男孩信息合成一个,叫做数据集成,不同渠道获得的同一类数据的单位可能不同,比如身高单位是米,还是厘米,就需要进行数据变换
最后进行数据可视化,可以直观地显示结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值