分类和聚类：算法理论和代码实现（填坑中……）

最新推荐文章于 2023-08-28 13:59:50 发布

七刀

最新推荐文章于 2023-08-28 13:59:50 发布

阅读量467

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/u011321546/article/details/98771574

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 分类和聚类的关系

分类：把一个东西分到一个明确的类中。是细分。（监督学习）细分

聚类：把一些东西分到具有一定相似度点组中。物以类聚，是汇总（无监督学习）

2.分类和聚类常见算法

分类算法：

1）决策树分类法
2）朴素贝叶斯分类法
3）基于支持向量机（SVM）的分类器
4）神经网络发
5）K-最近邻法
6）模糊分类法

聚类算法：
1）K均值聚类
2）K中心点算法
3）Clarans算法
4）层次算法：
Birch算法
Cure算法
Chameleon算法
5）基于密度的算法：
Dbscan算法
Optics算法
Denclue算法
6）基于网格的方法
Sting算法
Clique算法
Wave-Cluster算法

3. 分类算法理论和代码实现

3.1 决策树

以下为草稿，未整理好……

if的合集

划分好坏：划分条件的选择。

划分条件的好坏的标准：信息增益(ID3)、增益率(c4.5)、基尼指数(CART)

例子：

data=
[
(专一, 上进, 好男人),
(不专一, 上进,坏男人),
(专一, 不上进, 好男人),
(不专一, 不上进, 坏男人)
]

熵：

假如一个随机变量X的取值为X={x1,x2,...,xn}，每一种取到的概率分别为{p1,p2,...,pn}，那么X的熵定义为

如果一个分类系统中，类别的标识是cc，取值情况是c1,c2,⋯,cnc1,c2,⋯,cn，n为类别的总数。那么此分类系统的熵为：

如果是个二分类系统，那么此系统的熵为：

其中p(c0)p(c0)、p(c1)p(c1)分别为正负样本出现的概率。

条件熵：

1.当特征x被固定为值xixi时，条件熵为: H(c|x=xi)H(c|x=xi)
2.当特征X的整体分布情况被固定时，条件熵为:H(c|X)

信息增益(IG)为：

上面的例子：

系统熵：

一共两个结论：好男人=2，坏男人=2

H(c)= -2/4log2(2/4)-2/4log2(2/4)=1

专一和不专一的信息熵：

专一=2，好男人=2，坏男人=0 ；H(专一)=-2/2log2(2/2)-0/2log2(0/2)=0

不专一=2，好男人=0，坏男人=2；H(不专一)=-0/2log2(0/2)-2/2log2(2/2)=0

上进和不上进的信息熵：

上进=2，好男人=1，坏男人=1 ；H(上进)=-1/2log2(1/2)-1/2log2(1/2)=1

不上进=2，好男人=1，坏男人=1；H(不上进)=-1/2log2(1/2)-1/1log2(1/2)=1

信息增益

专一 = 不专一 = 1-0=1

上进 = 不上进 = 1-1=-0

七刀

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录