1.4从数据到知识

  • 开放数据

    • 由小集团内部数据公开
      • 法律层面公开
      • 技术上公开(方便、标准的数据格式等)
    • 哪里下载开放数据

  • 开放政府数据

    • 公开的高质量数据极大方便了数据挖掘,特别是大数据
      • 例如地理信息+气象信息+交通信息融合,可以得到1+1>2的效果
  • 数据挖掘的定义

    • 最简单的统计分析方法例如均值、方差等手工计算已经无法满足数据维度越来越高、数据量越来越大的大数据的要求,必须要通过计算机、算法进行计算
    • 数据挖掘是一个从大量的、复杂的、有噪音的数据中提取出有趣有用隐含的模式的一个自动的过程
    • 数据挖掘不是一个全自动的过程,需要人类的干预(挑选属性、解释... ...,特别是在数据的预处理过程中)
    • 数据挖掘的近义词:知识发现
  • 数据挖掘的意义

    • 数据变得多且廉价,所以要学习与数据相关的技术,去分析数据。例如:数据库、机器学习、统计学、可视化等方面
  • 数据挖掘的应用
    • 商务智能(BI)领域

      • 决策支持
      • 客户群体划分
      • 群找目标客户或潜在危险(客户)
      • 风险预警
      • 预测业务发展
  • 从数据到知识

    • 传感器采集到的东西:数据(存在冗余、错误)
    • 数据经过处理:信息
    • 信息通过数据挖掘:知识
    • 知识+(与领域相关的各种)模型:可以帮助人们做决策
  • 数据集成与分析

    • 通常数据存放在不同的数据源中:文本文件、CRM、ERP或其他数据库
    • 把所有的数据融合,叫做ETL(一套专门的软件):提取、转换、装载(清洗、融合、处理格式、定义等)
    • 融合后装在数据仓库中:进一步做数据分析
  • 数据挖掘的过程

    • 定义问题
    • 采集数据
    • 数据准备
    • 建模(分类、预测模型、回归等等)
    • 解释结果
    • 评价(根据好不好、准确度高不高,反馈)
    • 够好、够准确就可以应用(出现问题,进行反馈)
  • 企业级的数据分析、数据挖掘、可视化应用软件
    • IBM的SPSS软件

      • 是一个可视化的建模工具
        • 下面一行是小算法模型:决策树、时间序列分析、分类器等
    • SAP

    • Oracle(向商务智能方向发展)

      • 提供了很多进行商务智能分析的算法模块
  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值