自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 K最近邻案例实战之手写数字识别模型

上图所示是将图片格式的数字4转化为由0和1组成的新数字4,这是一个32*32的矩阵,数字1代表有颜色的地方,数字0代表没有颜色的地方。经过图像二值化处理获得的32*32的0-1矩阵相当于一个二维数组,为了方便进行机器学习,还需要将这个二维数组进行简单的处理,在第一行数字后依次拼接2~32行数字,得到一个1*1024的一位数组。这里将test_size设置成0.2,即将百分之20数据划分为测试集,并设置random_state为123(可换为其他数字) ,使每次运行得到的数据划分结果一致。

2023-11-10 13:05:00 127

原创 K最近邻算法用于回归分析

在scikit-learn的数据集生成器中,make_regression是一个非常好的用于回归分析的数据生成器,我们用它来演示K最近邻算法在回归分析中的表现。上图黑色曲线代表的就是K最近邻算法拟合make_regression生成的数据所进行的模型,直观来看,模型的拟合程度不是很好,大量数据点都未被模型覆盖。从上图我们可以看到,横轴代表的是样本特征数值,范围在-3到3之间,纵轴代表的是样本的测定值,范围在-250到250之间。模型得分只有0.77,为了提高模型分数,我们将K最近邻算法的近邻数进行调整。

2023-11-09 20:51:42 103

原创 K最近邻算法——近朱者赤,近墨者黑

如上图所示,我们选的最邻近数为1,但是我们如果在训练模型过程中让最近邻数等于1的话,那么就很可能犯一叶障目不见泰山的错误,万一新数据点最近的数据恰好是个测试错误点呢?我们这里生成的数据集,可以看作为机器学习的训练数据集,是已知数据,我们基于这些数据用算法进行模型训练,然后再对未知数据进行分类和回归。当我们令新数据点的最近邻数为3时,在于新数据点最近的三个点中,有两个是深色,一个是浅色,这样一来,K最近邻算法把新数据点放到深色的分类中。对于K最邻近算法来说,新数据点离谁近,就和谁属于同一类。

2023-11-08 19:19:04 88

原创 【无标题】数据挖掘与机器学习,数据挖掘的六大任务

典型的分类问题有垃圾邮件识别、文本分类、信用评分、欺诈检测、图像识别、用户流失预测、营销响应预测、广告点击率预估、商品推荐等。序列问题是指从顺序型数据中发现序列模式,例图九个月前买了pc的用户往往下一个月会买一根内存条。聚类问题是指从数据中探索样本之间的相似性,把特征相似的具为一类,是一种无目标的探索性分析。数据挖掘是指从大量数据中发现潜在的有价值的只是的过程,机器学习是一种利用数据训练模型的算法。数据挖掘有一下六大任务,分别是:分类问题、聚类问题、回归问题、关联问题、序列问题、异常值检测问题。

2023-11-05 21:41:57 548 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除