学习笔记:数据挖掘原理与实践
文章平均质量分 90
以电子工业出版社的《数据挖掘原理与实战》,结合老师授课内容,整理成学习笔记。ji
普通网友
这个作者很懒,什么都没留下…
展开
-
DM——数据处理基础:距离和相似性
文章目录简单的概念:熵(entropy,也称信息熵)信息增益按属性A划分S后的熵 的定义:简单数据对象之间的相似度和相异度(线性)相关系数Correlation coefficientCosine 相似度Pearson相关系数常用距离函数一.间隔数值属性1.欧式(Euclidean)距离2.曼哈顿(Manhattan)距离二.二值属性Jaccard系数:附1.信息熵例题2.信息增益例题3.计算Jaccard系数 简单的概念: 相似度(Similarity) 两个对象相似程度的数值度量,原创 2021-06-26 15:27:52 · 640 阅读 · 0 评论 -
DM——数据处理基础:数据预处理Data Pre-Processing
写在前面 数据挖掘的目的: 在海量信息中挖掘技术潜在有用的模式或者信息。 而挖掘的效果, 直接受到源数据质量的影响。 就是说,高质量的数据是有效挖掘的前提。 文章目录写在前面为什么要数据预处理数据处理的一般工作数据清理Data Cleaning1.对于缺失值2.噪声数据的平滑处理数据集成/聚合数据变换1. **最大最小规范化**2. **数据离散化**3. **无监督离散化**4. **基于熵的离散化(Entropy based approach)-极大化区间纯度**数据规约1.维归约(Reducti原创 2021-06-25 14:59:07 · 938 阅读 · 1 评论 -
贝叶斯分类方法——初次见面
开篇口水话: 这篇博客是,完成一个课程选题项目:《好评/差评识别。》 采用朴素贝叶斯算法 从而要认真学习,贝叶斯算法,以及朴素贝叶斯算法 简单回顾概念: 1.分类的目的: 利用已有的观测数据,建立fen’lei’qi对象属于哪个预定义的目标类 2.分类预测输出: 离散值 3.分类的任务: 对Data Set进行学习并构造一个拥有预测功能的分类模型。用于预测未知样本的类标号,比如预测病人的病情为[‘癌症’,‘非癌症]。 4.贝叶斯分类方法:是一种基于统计的学习方法 几个术语的中英文: 分类(Clas.原创 2021-05-25 10:48:07 · 599 阅读 · 0 评论 -
DM——数据处理基础之数据、数据统计特性
一、数据 1.数据&&数据类型 2.数据集类型 二、数据统计特性 1.数据的中心度量 2.数据的散布程度度量 三、数据预处理 1.数据清理 2.数据聚合 3.数据变换 4.数据归约 四、相似性度量 1.属性之间的相似性度量 2.对象之间的相似性度量 ...原创 2021-04-11 14:30:52 · 1912 阅读 · 0 评论 -
DM第一篇:绪论
什么叫绪论? 1.数据挖掘产生的背景 2.数据挖掘任务及过程 3.数据挖掘应用 4.数据挖掘技术的前景、研究热点 5.小结 6.习题原创 2021-03-02 23:38:54 · 282 阅读 · 0 评论