python机器学习Day‘8

最新推荐文章于 2023-11-08 16:51:39 发布

老子最酷

最新推荐文章于 2023-11-08 16:51:39 发布

阅读量215

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35283033/article/details/75040893

版权

最近实训，用Unity做游戏…讲道理还是很有趣的。

感觉自己对于宏观或者细节，理解或者表述，加上想象力，都有自己很大的优势在。

机器学习每天大概只看一个小时左右。

最近的内容：

无监督学习着重于发现数据本身的分布特点。节省大量人工的同时让可以利用的数据规模变得不可限量。

主要有两个功能：数据聚类和特征降维。

最经典的数据聚类的模型是K均值算法，需要预先设定聚类的个数，不断更新聚类中心，迭代之后，达到所有数据点到其所属类中心距离的平方和趋于稳定。

算法执行的四个过程：随机布设K个聚类中心；寻找并标记距离聚类中心最近的一个点；标记所有点后重新计算聚类中心；如果分配类簇不变，停止迭代，否则继续循环2步骤。

在对K均值进行性能测评时，1)如果测试集带有正确分类ARI和准确性方法类似，兼顾了雷速无法和分类标记对应的问题。

2)如果没有所属类别，使用轮廓系数度量聚类结果的质量。计算每一类里的每一个样本和同类下其他样本的平均距离，结果用于量化簇内的凝聚度；

再选定一个类外的簇，计算样本和其他所有类内每一个样本的平均距离，结果量化簇之间的分离度。

轮廓系数为（分离度-凝聚度）/max（分离度，凝聚度）。

若轮廓系数<0，则效果差，越趋近1，效果越好。

K-means聚类模型采用迭代式算法。

有两大缺陷：容易收敛到局部最优解，需要预先设定簇的数量。

我自己的理解，

第一个就是说他的最优解是一个中间性质的值，两端分别是没有发现明显的簇和局部最优解。

第二个就是说需要有一个有价值的尝试范围。

有一种粗略估计个数的算法，是“肘部”观察法。找折点、

降维可以重构有效的低维度特征向量，为展现数据提供可能（多维无法肉眼观测）。

最经典：主成分分析技术。

“秩”个概念类似于自由度？

PCA特征选择就是把原来的特征空间做了映射，得到新的映射后，特征空间的数据彼此正交，尽可能保留下具有区分性的低维度特征。

大量实践证明，损失少部分模型性能，换取到训练大量数据的时间很划算。

章末总结：

机器学习：1）监督2）无监督。

监督1）分类2）回归。

线性、支持向量机、朴素贝叶斯、K近邻、决策树、集成中又有随机森林和梯度提升决策树。

线性回归、支持向量机回归、K近邻回归、集成中有极端随机森林。

无监督1）聚类：K均值）降维：PCA。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python机器学习Day‘8

最近实训，用Unity做游戏…讲道理还是很有趣的。感觉自己对于宏观或者细节，理解或者表述，加上想象力，都有自己很大的优势在。机器学习每天大概只看一个小时左右。最近的内容：无监督学习着重于发现数据本身的分布特点。节省大量人工的同时让可以利用的数据规模变得不可限量。主要有两个功能：数据聚类和特征降维。最经典的数据聚类的模型是K均值算法，需要预先设定聚类的个数，不断更新聚类中心，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。