机器学习---分类和测度

课上老师还提到了:GMM和GGM~~本文没有讲哈

以下使用到的图片来自上海交大杨旸老师的课件,网址如下:http://bcmi.sjtu.edu.cn/~yangyang/ml/

 

分类比较简单,就简单写写了。

分类就是我们拿到一堆数据,怎么把它们分到不同的类别中呢?训练过程可以是监督或者非监督的。

主要思想就是:距离近的就是一类,距离远的就分为别的类了。

 

那么什么是距离?距离需要满足以下特性:

下边举了几个我们常见的距离:

来个例子形象生动地解释一下不同的距离咯:

下边是基因中常用的距离(Hamming distance)

这些相关系数其实也是距离的表示方法:

编辑距离:和上边基因比较像

分类的方法总的分为两种:

划分式:从一个随机初始的划分开始,然后使用K-means clustering 或者Mixture-Model based clustering训练修改模型。

分层式:自底向上或者自顶向下,可以建立一个树。你需要几个类,就可以从树的某一层砍掉,下边的各个小分支就是了。

 

两类数据之间的距离有以下四种度量方式:

1、single-link: 类别之间最近的两个点的距离

2、complete-link:类别之间距离最远的两个点的距离

3、centroid:Clusters whose centroids (centers of gravity) are the most cosine-similar

4、average:两个类别中两两算距离求平均。

来两个例子:

 

Partition algorithms;

要求:把数据分为K类

输入:一组数据,分类数K

找到分类规则:1、全局最优:枚举所有可能的分类规则选个最好的

                       2、启发式方法:K-means and K-medoids algorithms

K-means:

随机初始化K个点

对于每个样本点在初始化的K个点中找到与他最近的那个,分类一次,计算中心作为下一次的K个点。

不断循环。直到我们满意为止。

 

这个方法会收敛的。

结果与你初始化的那个点也有关系,如果初始化比较好,那么分类效果也会好一些,所以可以多试几个不同的初始点或者用其他方法初始化点或者用启发式方法(具体看你自己选择咯)选好的点。

具体分为几类,这个得根据经验来吧。

 

怎么判断我们训练得到的分类器好还是不好呢?

纯度:解释一下~

看下图,我们用训练数据训练好了分类器,就把测试数据(有标签,先不用)带到这个分类器中,然后得到了测试标签,和之前的标签对比,哪个类别的数量多,就用这个数字作为分子,测试得到的分类结果中该类总数为分母,就是了。一般来说,纯度越高,分类器越好。

 

 

 

下面来说一下半监督学习测度学习:

左边那个数据不太容易分开的, 但是他们是怎么转化成右边呢?就是用了测度

其实就是乘了个矩阵把坐标变了一下,和svm的核的概念差不多。但是没有改变维度

如果 xi 和 xj 比较近,那么(xi ,xj)就在S里边      ——(这里的 x 是点,也就是一个样本,不是特征哈,和上边要区分一下)

如果 xi 和 xj 比较远,那么(xi ,xj)就在D里边

S 和 D 只是为了下边算的时候方便理解,最终分类的数据还是点 x 。(xi ,xj)这个距离就是测度。

下边是选取A的方法:

 

就是数据都用A(A >= 0)处理之后在D中的测度大于1的情况下,在S中的测度们最小。我们要求的就是满足这个条件的A。

下边列举一些例子:

上图:a是原本的数据集,b是只用了A的对角线乘了数据,c是用整个A乘了数据

上图就是当边缘信息增加的时候,分类器的性能提升速度。字略小,随意感受下,嗯。。。

1、距离测度很重要

2、好的距离测度可以从比较小数量的边缘信息(属于S还是D)中获得

3、距离测度在特征空间找到更好的距离,有效地进行特征选择(特征选择见上一篇文章)

4、距离测度用于提升分类效果

 

Wish you a good weekend !

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 使用 Mac mini 进行机器学习是完全可行的,但是它可能不如一些专门用于机器学习的高端硬件性能强劲。Mac mini 的 CPU 和 GPU 性能可能会受到限制,这可能会影响模型训练的速度和效率。但是,如果你只是进行小规模的机器学习任务,Mac mini 可能已经足够了。另外,你可以使用云计算平台,如 AWS、Azure 或 Google Cloud,来获得更高性能的机器学习计算资源。 ### 回答2: Mac Mini是苹果公司推出的一款小型台式电脑,它搭载了强大的处理器和图形处理器,提供了出色的性能和图形处理能力。使用Mac Mini进行机器学习是完全可行的。 首先,Mac Mini的硬件配置非常出色。它配备了多核的Intel处理器、高性能的图形处理器和大容量的内存,这些硬件保证了流畅的运行和处理大规模数据的能力。同时,它还支持多个外接显示器,提供了更大的工作空间,方便同时进行多任务处理。 其次,Mac Mini运行的操作系统是苹果的macOS,这个操作系统是非常稳定、安全且易于使用的。同时,macOS内置了很多用于开发和科学计算的工具和库,如Xcode和NumPy等,方便用户进行机器学习算法的编写和调试。 此外,Mac Mini还支持使用各种流行的机器学习框架和工具。例如,可以使用TensorFlow、PyTorch、Scikit-learn等框架进行模型的训练和预测。这些框架提供了丰富的API和算法库,可以帮助用户快速搭建和训练模型。 另外值得一提的是,Mac Mini还支持使用外接的高性能显卡和存储设备,用户可以根据自己的需要进行扩展和升级,提升机器学习的性能和效果。 总而言之,使用Mac Mini进行机器学习是一种不错的选择。它强大的硬件配置、稳定的操作系统和丰富的机器学习工具支持,可以帮助用户进行高效、精确的机器学习任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值