最近实训,用Unity做游戏…讲道理还是很有趣的。
感觉自己对于宏观或者细节,理解或者表述,加上想象力,都有自己很大的优势在。
机器学习每天大概只看一个小时左右。
最近的内容:
无监督学习着重于发现数据本身的分布特点。节省大量人工的同时让可以利用的数据规模变得不可限量。
主要有两个功能:数据聚类和特征降维。
最经典的数据聚类的模型是K均值算法,需要预先设定聚类的个数,不断更新聚类中心,迭代之后,达到所有数据点到其所属类中心距离的平方和趋于稳定。
算法执行的四个过程:随机布设K个聚类中心;寻找并标记距离聚类中心最近的一个点;标记所有点后重新计算聚类中心;如果分配类簇不变,停止迭代,否则继续循环2步骤。
在对K均值进行性能测评时,1)如果测试集带有正确分类ARI和准确性方法类似,兼顾了雷速无法和分类标记对应的问题。
2)如果没有所属类别,使用轮廓系数度量聚类结果的质量。计算每一类里的每一个样本和同类下其他样本的平均距离,结果用于量化簇内的凝聚度;
再选定一个类外的簇,计算样本和其他所有类内每一个样本的平均距离,结果量化簇之间的分离度。
轮廓系数为(分离度-凝聚度)/max(分离度,凝聚度)。
若轮廓系数<0,则效果差,越趋近1,效果越好。
K-means聚类模型采用迭代式算法。
有两大缺陷:容易收敛到局部最优解,需要预先设定簇的数量。
我自己的理解,
第一个就是说他的最优解是一个中间性质的值,两端分别是没有发现明显的簇和局部最优解。
第二个就是说需要有一个有价值的尝试范围。
有一种粗略估计个数的算法,是“肘部”观察法。找折点、
降维可以重构有效的低维度特征向量,为展现数据提供可能(多维无法肉眼观测)。
最经典:主成分分析技术。
“秩”个概念类似于自由度?
PCA特征选择就是把原来的特征空间做了映射,得到新的映射后,特征空间的数据彼此正交,尽可能保留下具有区分性的低维度特征。
大量实践证明,损失少部分模型性能,换取到训练大量数据的时间很划算。
章末总结:
机器学习:1)监督2)无监督。
监督1)分类2)回归。
线性、支持向量机、朴素贝叶斯、K近邻、决策树、集成中又有随机森林和梯度提升决策树。
线性回归、支持向量机回归、K近邻回归、集成中有极端随机森林。
无监督1)聚类:K均值)降维:PCA。