python机器学习Day‘8

最近实训,用Unity做游戏…讲道理还是很有趣的。

感觉自己对于宏观或者细节,理解或者表述,加上想象力,都有自己很大的优势在。

机器学习每天大概只看一个小时左右。

最近的内容:

无监督学习着重于发现数据本身的分布特点。节省大量人工的同时让可以利用的数据规模变得不可限量。

主要有两个功能:数据聚类和特征降维。

最经典的数据聚类的模型是K均值算法,需要预先设定聚类的个数,不断更新聚类中心,迭代之后,达到所有数据点到其所属类中心距离的平方和趋于稳定。

算法执行的四个过程:随机布设K个聚类中心;寻找并标记距离聚类中心最近的一个点;标记所有点后重新计算聚类中心;如果分配类簇不变,停止迭代,否则继续循环2步骤。

在对K均值进行性能测评时,1)如果测试集带有正确分类ARI和准确性方法类似,兼顾了雷速无法和分类标记对应的问题。

2)如果没有所属类别,使用轮廓系数度量聚类结果的质量。计算每一类里的每一个样本和同类下其他样本的平均距离,结果用于量化簇内的凝聚度;

再选定一个类外的簇,计算样本和其他所有类内每一个样本的平均距离,结果量化簇之间的分离度。

轮廓系数为(分离度-凝聚度)/max(分离度,凝聚度)。

若轮廓系数<0,则效果差,越趋近1,效果越好。

K-means聚类模型采用迭代式算法。

有两大缺陷:容易收敛到局部最优解,需要预先设定簇的数量。

我自己的理解,

第一个就是说他的最优解是一个中间性质的值,两端分别是没有发现明显的簇和局部最优解。

第二个就是说需要有一个有价值的尝试范围。

有一种粗略估计个数的算法,是“肘部”观察法。找折点、


降维可以重构有效的低维度特征向量,为展现数据提供可能(多维无法肉眼观测)。

最经典:主成分分析技术。

“秩”个概念类似于自由度?

PCA特征选择就是把原来的特征空间做了映射,得到新的映射后,特征空间的数据彼此正交,尽可能保留下具有区分性的低维度特征。

大量实践证明,损失少部分模型性能,换取到训练大量数据的时间很划算。


章末总结:

机器学习:1)监督2)无监督。

监督1)分类2)回归。

线性、支持向量机、朴素贝叶斯、K近邻、决策树、集成中又有随机森林和梯度提升决策树。

线性回归、支持向量机回归、K近邻回归、集成中有极端随机森林。

无监督1)聚类:K均值)降维:PCA。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值