nyuyy-CSDN博客

原创 K最近邻案例实战之手写数字识别模型

上图所示是将图片格式的数字4转化为由0和1组成的新数字4，这是一个32*32的矩阵，数字1代表有颜色的地方，数字0代表没有颜色的地方。经过图像二值化处理获得的32*32的0-1矩阵相当于一个二维数组，为了方便进行机器学习，还需要将这个二维数组进行简单的处理，在第一行数字后依次拼接2~32行数字，得到一个1*1024的一位数组。这里将test_size设置成0.2，即将百分之20数据划分为测试集，并设置random_state为123（可换为其他数字），使每次运行得到的数据划分结果一致。

2023-11-10 13:05:00 127

原创 K最近邻算法用于回归分析

在scikit-learn的数据集生成器中，make_regression是一个非常好的用于回归分析的数据生成器，我们用它来演示K最近邻算法在回归分析中的表现。上图黑色曲线代表的就是K最近邻算法拟合make_regression生成的数据所进行的模型，直观来看，模型的拟合程度不是很好，大量数据点都未被模型覆盖。从上图我们可以看到，横轴代表的是样本特征数值，范围在-3到3之间，纵轴代表的是样本的测定值，范围在-250到250之间。模型得分只有0.77，为了提高模型分数，我们将K最近邻算法的近邻数进行调整。

2023-11-09 20:51:42 103

原创 K最近邻算法——近朱者赤，近墨者黑

如上图所示，我们选的最邻近数为1，但是我们如果在训练模型过程中让最近邻数等于1的话，那么就很可能犯一叶障目不见泰山的错误，万一新数据点最近的数据恰好是个测试错误点呢？我们这里生成的数据集，可以看作为机器学习的训练数据集，是已知数据，我们基于这些数据用算法进行模型训练，然后再对未知数据进行分类和回归。当我们令新数据点的最近邻数为3时，在于新数据点最近的三个点中，有两个是深色，一个是浅色，这样一来，K最近邻算法把新数据点放到深色的分类中。对于K最邻近算法来说，新数据点离谁近，就和谁属于同一类。

2023-11-08 19:19:04 88

原创【无标题】数据挖掘与机器学习，数据挖掘的六大任务

典型的分类问题有垃圾邮件识别、文本分类、信用评分、欺诈检测、图像识别、用户流失预测、营销响应预测、广告点击率预估、商品推荐等。序列问题是指从顺序型数据中发现序列模式，例图九个月前买了pc的用户往往下一个月会买一根内存条。聚类问题是指从数据中探索样本之间的相似性，把特征相似的具为一类，是一种无目标的探索性分析。数据挖掘是指从大量数据中发现潜在的有价值的只是的过程，机器学习是一种利用数据训练模型的算法。数据挖掘有一下六大任务，分别是:分类问题、聚类问题、回归问题、关联问题、序列问题、异常值检测问题。

2023-11-05 21:41:57 548 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 K最近邻案例实战之手写数字识别模型

原创 K最近邻算法用于回归分析

原创 K最近邻算法——近朱者赤，近墨者黑

原创 【无标题】数据挖掘与机器学习，数据挖掘的六大任务

空空如也

空空如也

原创【无标题】数据挖掘与机器学习，数据挖掘的六大任务