知识趣记-机器学习
knn算法:
找出距离测试样本点的前k个距离最近的点,判断这些点中,哪个类别的样本的数量最多,则将测试样本点归于这个类别。
k-means算法:
首先输入k,目的是将所有点分成k簇;
首先选k个点,作为k簇的的质心,然后对集合中所有的点,计算其到这k个聚类中心的距离,与谁近就跟谁;
所有点分成k个簇,计算每个簇的质心,更新质心的值;
循环以上步骤,直到质心的变化小于某个设定的阈值时,即完成分类。
k-means是一个不稳定的算法,每次迭代完结果都不一样。
监督学习:
既有特征,又有标签,让机器自己找到特征和标签之前的联系
非监督学习:
只有数据,不知道数据、特征之间的关系,让机器自学,是没有标签的。
过拟合:
在训练集上效果很好 ,在测试集上效果很差。
欠拟合:
在训练集表现很差,训练得还不够,在测试集上效果也很差。