数据挖掘简介

1. 数据和知识

    数据是反映客观事物的数字、词语、声音和图像等,是可以进行计算加工的"原料"。数据是对客观事物的数量、属性、位置及其相互关系的抽象表示,适合于保存、传递和处理。

    知识是人类对客观世界的观察和了解,是人类对客观世界是什么、为什么、应该怎么做的认知,知识推动人类的进步和发展。人类所作出的正确判断和决策,以及采取正确的行动都是基于智慧和知识。

    目前的问题:"数据丰富,信息贫乏"

    怎么办?

  1. 面对大量的数据,迫使人们不断寻找新的工具,对规律进行探索,为决策提供有价值的信息
  2. 数据仓库( Data Warehouse )和在线分析处理( OLAP )
  3. 数据挖掘有助于发现趋势,揭示已知的事实,预测未知的结果,在大量数据中发现有用的知识、模式、规律、约束等。

2. 什么是数据挖掘

    数据挖掘( Data Mining )是人工智能和数据库领域研究的热点问题,是指从大量有噪声的不完全的模糊和随机的数据中,提取出隐含在其中的、事先不知道但具有潜在利用价值的信息的过程。

    这个定义包括几层含义:

  • 数据必须是真实的、大量的并且含有噪声的。
  • 发现的是用户感兴趣的可以接受、理解和运用的知识。
  • 仅支持特定的问题,并不要求放之四海而皆准的知识。

3. 数据分析与数据挖掘

    数据分析( Data Analysis , DA )是数学与计算机科学相结合的产物,是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息形成结论,对数据加以详细研究和概括总结的过程。数据分析和数据挖掘都是基于搜集来的数据,应用数学、统计和计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。
    数据分析有广义与狭义之分。广义的数据分析包括了狭义数据分析和数据挖掘。

9feffe6f126b4f0cb125cf1186d32e3a.png

d1ec3fa485834f9688b0d742173707c6.png

4. 数据挖掘的主要任务

  • 预测任务
  • 描述任务

5. 数据挖掘的数据源

  • 作为一门通用的技术,只要数据对目标应用是有用的,数据挖掘就可以用于任何类型的数据。
  • 对于挖掘的应用,数据的基本形式主要有数据库数据、数据仓库、事务数据库和其它数据源。
  1. 数据库系统是由一组内部相关的数据和用于管理这些数据的程序组成,通过软件程序对数据进行高效的存储和管理,并发、共享或分布式访问,并保证数据的完整性和安全性。
  2. 数据仓库是依照分析需求、分析维度和分析指标进行设计的,它是数据库的一种概念上的升级。
  3. 事务数据库的每个记录代表一个事务,例如一个航班的订票、顾客的一个交易等。
  4. 其它类型数据:时间相关的数据和序列数据,数据流,空间数据, Web 数据( HTML 等)等。

6. 数据挖掘使用的技术

 7. 统计学与数据挖掘

    统计学里的方法可以看作是最基本的数据挖掘技术,包括:

  • 回归分析
  • 主成分分析
  • ……

8. 机器学习与数据挖掘

  • 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论等多门学科,它专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的知识或者技能,并重新组织已有的知识结构,使之不断改善自身的性能。
  • 三要素:数据、学习算法和模型
  • 类型:监督、无监督、半监督、主动、强化

9. 数据挖掘与数据库系统和数据仓库

  • 数据库管理系统( Database Management System , DBMS )是一种操纵和管理数据库的大型软件,主要关注数据库的创建、维护和使用。
  • 数据仓库( Datawarehouse )是面向主题的、集成的与时间相关且不可修改的数据集合。
  • 数据库主要用于事务处理,数据仓库主要用于数据分析,用途上的差异决定了两种架构的特点不同。

10. 数据挖掘存在的主要问题

  1. 数据类型多样化
  2. 噪声数据
  3. 高维度数据
  4. 数据挖掘的可视化

 11. Pandas统计分析基础

  • Pandas 库是一个免费、开源的第三方 Python 库,它为 Python 数据分析提供了高性能且易于使用的数据结构: Series 和 DataFrame
  • Pandas 自诞生后被应用于众多的领域,比如:金融、统计学、社会科学等
  • Pandas 库是基于 Numpy 库开发而来,所以它可以与科学计算库配合使用

DataFrame

  • DataFrame 是一个表格型的数据结构。每列都可以是不同的数据类型(数值、字符串、布尔值等)
  • DataFrame 既有行索引也有列索引,这两种索引在 DataFrame 的实现上,本质上是一样的
  • 在使用的时候,往往是将列索引作为区分不同数据的标签
  • 创建一个 DataFrame ,一种常用的方式是使用字典
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值