- 博客(9)
- 收藏
- 关注
原创 机器学习day02
优点:简单,易于理解,易于实现,无需训练缺点:懒情算法,对测试样本分类时的计算量大,内存开销大必须指定K值,K值选择不当则分类精度不能保证使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。优点:简单的理解和解释,树木可视化。
2024-05-30 14:36:09
1022
原创 机器学习day01
结构:特征值 + 目标值对于每一行数据我们可以称为样本。有些数据集可以没有目标值行:样本,列:特征值加载获取流行数据集获取小规模数据集,数据包含在datasets里取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是~/scikit_learn_data/吴恩达:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
2024-05-30 14:33:19
821
原创 numpy
Numpy(NumericalPython)是一个开源的Python科学计算库,用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组,该对象是一个快速而灵活的大数据容器。Numpy — 数值计算库ndarrynp.函数名ndarry.方法名。
2024-05-30 14:30:18
1056
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人