大数据技术期末复习重点,不挂科看这里~,大数据开发面试项目

4.1.分箱法

定义:通过观察某一数据周围的值来光滑有序数据的值,按照取值的不同划分可分为按箱平均值平滑、按箱中值平滑、以及按箱边界值平滑

4.2.回归

定义:利用某一拟合函数(如回归函数)来光滑数据

4.3.聚类

通过聚类分析检测出离群点。将类似的值组织成群或簇,落在簇之外的点就是离群点

5.数据集成要考虑的问题有哪些?

数据集成要考虑的问题有四个,分别是模式集成和对象匹配问题、冗余问题、元组重复问题、数据值冲突的检测与处理问题

6.数据变换主要涉及哪些内容?

数据变换主要涉及的内容包括有光滑。聚集、数据泛化、规范化、属性构造

三.数据挖掘

======

1.数据挖掘的概念

数据挖掘(DM)是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的具有潜在价值的信息的过程。知识发现(KDD)包含数据挖掘(DM)

2.数据挖掘常用算法

数据挖掘常用方法有分类、聚类、关联规则、时间序列预测等

  • 分类:分类是在给定数据基础上构建分类函数或分类模型,目的是将未知类别规类为给定类别种的某一类

  • 聚类:聚类是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组对象的集合,

  • 关联规则:关联规则是信任度与支持度分别满足用户给定阈值的规则

  • 时间序列预测:时间序列是将统计指标的数值按时间顺序排列所形成的数列。时间序列预测是将时间数列所反映的事件发展过程进行引申外推,预测发展趋势的一种方法。

3.分类

分类过程为学习和分类。第一步是建立模型,第二部根据模型进行分类。

3.1K最近邻算法

K最近邻算法的思想是:如果一个样本在特征空间的k个最相似样本中的大多数属于某一类别,则该样本属于该类别

3.2决策树

  • 22
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值