数据挖掘学习(1)

1. 绪论

1.1 什么是数据挖掘?

       数据挖掘是在大型数据库中,自动地发现有用信息地过程。

1.2 数据挖掘能解决什么问题?

       新的数据集带来了很多问题,数据挖掘旨在解决这些问题

1.3 什么是数据挖掘任务?

       也就是说数据挖掘做的是哪类事情,或者说是做哪种事情,这更加细化了属性和特点。

  • 预测任务

        数据挖掘根据其他属性的值,能预测特性属性的值。被预测的叫目标变量或者因变量,用来做预测的叫明变量或者自变量

  • 描述任务

        对数据进行描述,能够概括数据中潜在的一些联系、模式。(相关趋势聚类轨迹异常)

    四种主要的数据挖掘任务

  • 预测建模(有两类
    • 分类:用于预测离散的目标变量
    • 回归:用于预测连续的目标变量    

          例子:预测某个行为或者属性,如“预测淋巴今天会不会在京东买书”、“预测花的类型”。

  • 关联分析:用来发现描述数据中强相关特征的模式。

          例子:分析顾客的购物篮,可以发现一些规则,比如买尿布的顾客多半也会买牛奶

  • 聚类分析:旨在发现紧密相关的观测值组群。比如有很多事物,根据其中要素和细节特点的相似性,可以大概分成很多簇,聚类算法就要识别出这些簇。(同一簇的元素是紧密相关的)

          例子:文档聚类,现在有8篇文章,聚类算法分析这些文章,根据词(w)和词出现的次数(c),每篇文章表示为(w,c)的集合,然后能把这些文章分成两个簇,第一个簇对应于经济新闻,第二个簇对应于卫生保健新闻

  • 异常检测:可以这样理解,用来发现数据中不正常的观测值,这个观测值称为异常点,应用包括欺诈,网络攻击等。

          例子:信用卡欺诈检测的应用。使用异常检测技术可以构造处用户合法正常交易的轮廓,当一个新的交易出现时,将该轮廓特点与正常的进行比较,如果该交易的特性与之前构造的轮廓很不相同,那么可能是欺诈,就把该交易标记为欺诈。

习题

(a) 根据性别划分过于明显,等价于“一刀切”,同时过于简单,我认为不是数据挖掘任务;属于简单的数据库查询

(b) 不懂

(c) 不是;属于计算问题;属于简单的会计工作

(d) 不是;属于排序问题;属于简单的数据库查询

(e) 是,对掷色子的结果进行预测,掷一对骰子得到的结果特点是离散,这是预测离散的目标变量

不是,预测掷一堆骰子的结果属于概率计算。

(f) 是,预测离散的目标变量

(g) 是,属于异常检测技术

(h) 不是  是,属于数据挖掘的分级

(i) 不是,这属于信号处理

2. 数据

讨论和数据相关的问题,这对数据挖掘的成败至关重要。

数据类型 定性的,定量的

数据的质量 通常不一定完美

挖掘之前还需要预处理步骤

2.1 数据类型

        数据集数据对象的集合。

        数据对象:(有时叫做)记录、点、事件、模式、案例、样本、观测、实体

        用一组刻画对象基本特性的属性描述数据对象。

        例子:下表就是一个数据集,它包含了学生信息,每个字段对应于一个属性。

 这种平展文件在数据库系统中非常常见。

        2.1.1 属性和度量

  • 什么是属性
    • 属性:对象的性质或特性,因对象而已,或随时间变化
      • 例如:眼球(红、蓝、绿等等)是一种符号属性,温度(26℃、36℃)是数值属性
    • 测量标度:(m的太累了写不下去了。。。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值