数据挖掘导论 Chapter1~2读书笔记

数据挖掘是KDD过程的一部分,涉及数据预处理,如聚集、抽样、维归约和特征选择。预处理方法还包括特征创建、离散化和变量变换。特征选择有嵌入法、过滤法和包装法。此外,文章还讨论了相似度度量,如余弦相似度和Jaccard系数。
摘要由CSDN通过智能技术生成

1 什么是数据挖掘

数据挖掘是数据库中知识发现的一部分。知识发现KDD是将未加工的数据转换为有用信息的整个过程,包括输入数据、数据预处理、数据挖掘、数据后处理、输出信息。

2.3数据预处理

数据预处理有哪些方法:聚集、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量变换

聚集:将两个或多个对象合并成单个对象

抽样:选择数据对象子集进行分析,抽样方法包括放回和不放回抽样、概率抽样或非概率抽样、自适应(adaptive)/渐进抽样(模型准确率的增加随着样本增加而趋于稳定,则在稳定点停止样本容量)

维归约:通过创建新属性,将旧属性合并在一起来降低数据集的维度。常用场景是维灾难,常用方法是线性代数技术,如PCA主成分分析与SVD奇异值分解。

特征子集选择:通过选择旧属性的子集来得到新属性。常用场景是为了删除冗余特征和不相关特征。

4步选择过程包括:子集评估度量、控制新的特征子集产生的搜索策略、停止搜索判断、验证过程。

3种标准的特征选择方法:嵌入embedded、过滤filter、包装wrapper。嵌入法根据算法得到的特征权重值系数来选择使用和忽略哪些属性;过滤和包装唯一不同是子集评估方法不同,包装法使用目标数据挖掘算法,通过子集评估函数来判断,过滤法则通过预测实际算法在给定属性集上的执行效果如何来评估。

特征选择方法概括—过滤法、嵌入法、包装法_特征选择过滤法_lihe2021的博客-CSDN博客

特征创建:包括特征提取、映射数据到新的空间、特征构造。

特征提取:由原始数据创建新的特征集。与维归约区别:不是运用线性代数技术。

映射数据到新的空间:如傅里叶变换、小波变换等。

离散化和二元化:离散化包括监督离散化和非监督离散化,区别在于使不使用类信息。非监督离散化一般以等分方式,或非监督聚类算法划分。监督离散化以极大化区间纯度的方式确定分割点,纯度以熵度量,熵越大越不纯。

变量变换:常用来将不具有正态分布的数据变换成具有正态分布的数据。包括简单函数变换与规范化或标准化。

2.4 相似度和相异度

邻近性度量:

1、二元数据的度量:简单匹配系数SMC和Jaccard系数:

 

2、余弦相似度:用于文档相似度

 3、广义Jaccard系数EJ(Tanimoto系数)

 4、相关性:相关系数和Bregman散度

 Bregman散度是损失或失真函数,相异性函数。目的是度量用x近似y导致的失真或损失。一个函数与该函数的线性近似之间的差。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值