机器学习
记录总结机器学习相关的知识点。
飘逸py
这个作者很懒,什么都没留下…
展开
-
偏差和方差
高方差的算法,如KNN,KNN算法对数据特别敏感,KNN每次都去找离被预测样本最近的几个已知分类的样本,通过这几个样本的投票进行类别确认,如果这几个样本的标签大部分是错误的,则预测结果就不准确。非参数学习通常是高方差算法,因为这类算法不对数据进行任何假设,只能根据训练数据进行预测,对训练数据的准确性依赖较高。高偏差的算法,如线性回归。参数学习通常是高偏差算法,对数据具有极强的假设。一个抛物线形状的数据集,错误的被假设为线性的,这样就会产生较高的偏差。大多数算法具有可以调整偏差和方差的参数,如原创 2020-10-28 22:00:46 · 226 阅读 · 0 评论 -
机器学习问题的简单介绍
对于一个完整的机器学习问题,一般包括以下五个部分:样本 模型 训练 测试 推理样本是去抽取知识的依据。机器学习并不是盲目的进行推理,通常会根据已知的内容来抽取一些客观的的规律,然后根据这些规律去进行进一步的推理和预测,而这些规律是通过样本挖掘出来的。样本通常包括两个部分:属性和标签。属性可以理解为是对样本的描述,比如,对于一个“人”,他的皮肤是黄色的,眼睛是黑色的,另外一个“人”的皮肤是白色的,眼睛是蓝色的,通过不同颜色皮肤和眼睛这样的属性来描述这个人,而标签...原创 2020-09-05 21:28:03 · 217 阅读 · 0 评论 -
【机器学习】K-近邻算法(KNN)的简单实现
目录引言1. KNN的简单实现2. 封装KNN方法3. 测试3.1 鸢尾花数据3.2 手写数字引言K-近邻算法(KNN)是最简单的机器学习算法之一。该算法的思想是: 两个样本如果足够相似的话,那么它们很可能属于同一个类别。对于一个新的样本,只看和它最相似的一样本是不靠谱的,这里看和它最相似的k个样本中属于哪个类别的样本数最多,则这个新样本最有可能属于该类别。详细的算法介绍网上随便都能收到很多,这里就不写了,直接整代码。1. KNN的简单...原创 2020-08-22 16:37:56 · 487 阅读 · 0 评论