分类和聚类:算法理论和代码实现(填坑中……)

 

1. 分类和聚类的关系

 分类:把一个东西分到一个明确的类中。是细分。(监督学习)细分

 聚类:把一些东西分到具有一定相似度点组中。物以类聚,是汇总(无监督学习)

2.分类和聚类常见算法

分类算法:

     1)决策树分类法
     2)朴素贝叶斯分类法
     3)基于支持向量机(SVM)的分类器
     4)神经网络发
     5)K-最近邻法
     6)模糊分类法

聚类算法: 
     1)K均值聚类
     2)K中心点算法
     3)Clarans算法
     4)层次算法: 
                  Birch算法
                  Cure算法
                  Chameleon算法
     5)基于密度的算法: 
                  Dbscan算法
                  Optics算法
                  Denclue算法
     6)基于网格的方法 
                 Sting算法
                  Clique算法
                  Wave-Cluster算法

3. 分类算法理论和代码实现

 3.1 决策树

以下为草稿,未整理好……

          if的合集

          划分好坏:划分条件的选择。

          划分条件的好坏的标准:信息增益(ID3)、增益率(c4.5)、基尼指数(CART)

例子:

data=
[
(专一, 上进, 好男人),
(不专一, 上进,坏男人),
(专一, 不上进, 好男人),
(不专一, 不上进, 坏男人)
]

熵:

假如一个随机变量X的取值为X={x1,x2,...,xn},每一种取到的概率分别为{p1,p2,...,pn},那么X的熵定义为

如果一个分类系统中,类别的标识是cc,取值情况是c1,c2,⋯,cnc1,c2,⋯,cn,n为类别的总数。那么此分类系统的熵为: 

 

如果是个二分类系统,那么此系统的熵为: 

其中p(c0)p(c0)、p(c1)p(c1)分别为正负样本出现的概率。

条件熵:

1.当特征x被固定为值xixi时,条件熵为: H(c|x=xi)H(c|x=xi) 
2.当特征X的整体分布情况被固定时,条件熵为:H(c|X)

信息增益(IG)为:

 

上面的例子:

  系统熵:

           一共两个结论:好男人=2, 坏男人=2

H(c)= -2/4log2(2/4)-2/4log2(2/4)=1

专一和不专一的信息熵:

专一=2, 好男人=2,坏男人=0 ;H(专一)=-2/2log2(2/2)-0/2log2(0/2)=0

不专一=2, 好男人=0,坏男人=2;H(不专一)=-0/2log2(0/2)-2/2log2(2/2)=0

上进和不上进的信息熵:

上进=2, 好男人=1,坏男人=1 ;H(上进)=-1/2log2(1/2)-1/2log2(1/2)=1

不上进=2, 好男人=1,坏男人=1;H(不上进)=-1/2log2(1/2)-1/1log2(1/2)=1

 

信息增益

专一 = 不专一 = 1-0=1

上进 = 不上进 = 1-1=-0

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

七刀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值