《数据分析实战》总结一:数据分析基础

本文主要介绍了数据分析的基础,包括数据挖掘的基本流程、商业智能的概念、数据仓库与元数据的定义。详细阐述了数据预处理、用户数据分析、数据采集、数据清洗、数据集成、数据变换、数据可视化的重要性。同时,提到了数据质量的准则,如完整性、全面性、合法性、唯一性,并推荐了数据集成工具Kettle和数据可视化工具如Matplotlib、Seaborn。
摘要由CSDN通过智能技术生成

1 基本概念

  • 数据挖掘是什么

从一堆数据中通过分析挖掘得到目标需求想要得到的结论

  • 数据挖掘的基本流程
  1. 商业理解:数据挖掘的目的是更好地帮助业务,所以要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
  2. 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等;
    可以对收集的数据有个初步的认知。
  3. 数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
  4. 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
  5. 模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
  6. 上线发布:模型的作用是从数据中找到“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程;
    数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。
  • 商业智能 BI、数据仓库 DW、数据挖掘 DM

商业智能的英文是 Business Intelligence,缩写是 BI。相比于数据仓库、数据挖掘,它是一个更大的概念;
商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程;
所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。

数据仓库通过数据库技术来存储数据

  • 元数据和数据元

元数据(MetaData):描述其它数据的数据,也称为“中介数据”;
元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便;
通过元数据,可以很方便地管理数据仓库。

数据元(Data Element):最小数据单元。

比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息;
可以把这些属性定义成图书的元数据。
在图书这个元数据中,书名、作者、出版社等就是数据元。

  • 数据挖掘(也叫KDD)的重要任务:分类、聚类、预测和关联分析

1 分类

通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类

一般来说数据可以划分为训练集和测试集;
训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识;
通过训练,机器就产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测;
如果测试集中,人们已经给出了测试结果,那么就可以用测试结果来做验证,从而了解分类器在测试环境下的表现。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值