数据挖掘老师标记的重点总结

本文总结了数据挖掘的关键知识点,包括大数据的四个特点、数据分析的定义、数据挖掘过程及其涉及的功能,如统计分析、关联规则挖掘、分类和回归、聚类分析等。还详细讲解了数据分布形态、数据预处理方法如Z分数变换和独热编码,以及数据清洗的缺失值处理。此外,介绍了决策树、过拟合与欠拟合、KNN、聚类算法如K均值及其优缺点,以及聚类与分类的区别。
摘要由CSDN通过智能技术生成

第一章考点
1,大数据的四个特点: 容量,多样性,速度,价值
2,数据分析:是用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论,并对数据加以详细研究和概括总结的过程。
数据挖掘提取出来的知识: 概念,规则,模式,规律
3,大数据分析与挖掘的过程:
(1)任务目标确定
(2)目标数据集的提取
(3)数据预处理
(4)建立适当的数据分析与挖掘模型
(5)模型的解释与评估
(6)知识的应用
功能:
(1)对数据的统计分析与特征描述
(2)关联规则挖掘和相关性分析
(3)分类和回归
(4)聚类分析
(5)异常检测或者离群点分析
选择 填空 要会写 3是综合题

第二章考点:
考点一 : 数据的类型

数据集类型 定义 举例
结构化 数据有结构,多以文本文件存储 鸢尾花
半结构化 有一定结构使用标签标识数据中每个元素有层次 XML文档,JSON数据
非结构化 没有预定的数据模型 音频,图像,视频等
数据属性类型 定义 举例
标称属性(分类属性) 类似标签 数字和符号对物体进行识别和分类,没有顺序不可,不可比大小,不加减乘除 yellow small big
序数属性 有顺序关系 能反映对象之间的等级顺序可比大小但不加减 优秀,良好
数值属性 区间标度:零点不是零值,没有比较意义 ; 比率标度属性 零点表示零值 可以比较大小 区: 华氏温度,38°,25° ,比:重量,
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值