数据挖掘笔记(1)-概念、数据准备

一.概念:

    数据挖掘:运用基于计算机的方法,从数据中获得有用之时的整个过程。

    两个基本目标:预测和描述。

    数据挖掘的基本任务:(1)分类  (2)回归  (3)聚类 (4)总结概括 (5)关联建模 (6)变化和偏差检测

    数据挖掘的过程: 陈述问题,阐明假设->收集数据->预处理数据->模型评估(挖掘数据)->解释模型,得出结论

    数据仓库的开发过程概括为3个阶段:建模、构建和部署

    完成数据挖掘所耗费的精力:数据准备>商业目标>数据挖掘>巩固结果

 

二:数据准备

   2.1 原始数据的表示

              数据样本是数据挖掘的基本组成部分。每个样本都用几个特征来描述,每个特征都用不同类型的值。两种常见的类型数值型和分类型。

        数值型值包括实型变量和整型变量,如年龄、速度或长度。数值型特征有两个重要的属性:其值有顺序关系和距离关系。

        分类型(长叫做符号型)变量没有上述两种关系,分类型变量的两个值可以相等或不等。它们只建立一种等同关系,例如:眼睛颜色、性别、国籍。

        具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。

              另一种基于变量值的变量分类方法是,根据它是连续性变量还是离散型变量来分类。连续型变量也称为定量型或度量型变量。在大型数据集     

        中

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值