![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
一叶_障目
知识——即要深,也要广
展开
-
数据挖掘——分类——决策树算法之ID3与C4.5原理解析
决策树算法属于数据挖掘中的分类中的一种方法,决策树包含经典的ID3和C4.5算法。ID3原理解析ID3利用信息论中的信息熵和信息增益的概念 熵表征物质的混乱程度,越混乱熵值越高,反之熵值越低。 在ID3方法中利用熵减思想,可以简单这么理解: 选择某一属性作为根节点,使得最终所分得的类别的混乱度最小,即类别之间清晰可辨。 信息增益:可以简单理解为熵变,表征某一属性在总体数据集中原创 2016-11-18 14:52:33 · 1861 阅读 · 0 评论 -
Python机器学习——聚类的有效性指标
聚类有效性指标(Cluster Validity Index,CVI)用于度量聚类的效果。很显然,希望彼此相似的样本在一个簇,彼此不相似的样本尽量在不同的簇。也就是说:同一簇的样本彼此之间相似,不同簇之间的样本尽可能不同。 聚类的性能指标分为两类:外部指标:该指标由聚类结果和某个参考模型进行比较而获得;内部指标:该指标由本身的聚类结果而得到,不利用任何参考模型;外部指标 给定数据集D=原创 2017-09-14 14:51:33 · 9303 阅读 · 3 评论 -
数据挖掘——分类——朴素贝叶斯算法原理解析
朴素贝叶斯算法简单、高效,具有坚实的理论基础,在数据分类中得到了广泛的应用。朴素贝叶斯的理论基础:贝叶斯定理其中:P(H | X)为条件X发生的情况下,H发生的概率,也称后验概率,P(H)称先验概率朴素贝叶斯分类算法基于贝叶斯定律,工作过程如下:(1)D是数据集,即所有样本的集合 每个样本具有n个属性,可以用n为向量表示,如样本X={X1,X2,…,Xn},表示对应的n个属性A1,原创 2016-11-20 12:04:19 · 2230 阅读 · 0 评论 -
weka连接MySQL数据库
简要介绍weka连接MySQL数据库原创 2017-01-12 21:50:42 · 811 阅读 · 0 评论