数据挖掘之基础概念

最新推荐文章于 2021-10-10 15:57:54 发布

franwee

最新推荐文章于 2021-10-10 15:57:54 发布

阅读量396

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012576055/article/details/48947419

版权

数据挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

预测任务：根据其他属性的值，预测特定属性的值。

通常

数据挖掘的任务

描述任务：导出概括数据中潜联系的模式

四种主要的数据挖掘任务：预测建模、关联分析、聚类分析、异常检测

预测建模：分类：用于预测离散的目标变量

回归：用于预测连续的目标变量

关联分析：用于发现描述数据中强关联特征的模式。

聚类分析：旨在发现紧密相关的观测值组群，是的与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能的相似。

异常检测：识别器特征显著不同于其他数据的观测值。这样的观测值称为异常点，或离群点。

维度：数据集的维度是数据集中的对象具有的属性数目。低维度数据往往与中、高维度数据有质的不同。数据预处理的一个重要动机就是减少维度，成为维归约。

稀疏性：有些数据集，如果具有非对称特征的数据集，一个对象的大部分属性上的值都为0；在许多情况下，非零项还不到1%。（非对称属性：eg：对于某个学生，选修某门课程为1，否则取值0.由于学生只选择了所有课程中的一小部分。所以数据集的大部分值都是0）

分辨率：常常可以在不同的分辨率下得到数据，并且在不同的分辨率下数据的性质也不同。（以几米或者几十米分辨率观测地球表面）

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

离群点：在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象，或是相对于该属性的典型值来说不寻常的属性值。

数据预处理：

聚集：将两个或多个对象合并成单个对象。

无放回抽样

简单随机抽样

有放回抽样

抽样

分层抽样：从预先制定的组开始抽样

维归约

嵌入

特征子集选择过滤

包装

特征加权：特征加权是另一种保留或删除特征的办法。特征越重要，所赋予的权值越大

相似性和相异性的度量

用邻近度表示相似性或相异性。

相似度定义两个对象相似程度的数值度量

相异度定义两个对象差异程度的数值度量

分类：分类任务就是通过学习得到一个目标函数f，把每个属性集x映射到一个预先定义的类标号y

决策树归纳

根结点：它没有入边，但有零条或多条出边

内部结点：恰有一条入边和两条或多条出边

叶结点或终结点：恰有一条入边，但没有出边

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘之基础概念

预测任务：根据其他属性的值，预测特定属性的值。通常数据挖掘的任务描述任务：导出概括数据中潜联系的模式四种主要的数据挖掘任务：预测建模、关联分析、聚类分析、异常检测预测建模：分类：用于预测离散的目标变量回归：用于预测连续的目标变量关联分析：用于发现描述数据中强关联特征的
复制链接

扫一扫

专栏目录

franwee CSDN认证博客专家 CSDN认证企业博客

码龄11年

4: 原创

58万+: 周排名

224万+: 总排名

1874: 访问

: 等级

60: 积分

3: 粉丝

1: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

数据挖掘 4篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。