自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 【机器学习笔记】KNN算法和k-means算法对比

中的。用于分类或回归问题,通常用作分类算法。在处理一个未知样本时,先找出训练集中距离K个已知样本,然后根据这K个已知样本的类别标签来预测测试集样本的类别。在分类问题中,通常选择出现作为预测结果;在回归问题中,则计算这K个临近值的作为预测结果。

2024-08-14 16:54:10 638

原创 【机器学习实战】用决策树模型预测银行客户是否会认购定期存款

除了以上几种优化还可以从其他方面进行改进:1.本案例中,填充缺失值的方法选择常见类别填充,除此之外还可以选择使用一些机器学习算法预测缺失值进行填充;2.特征编码方法的选择也会影响模型的构建,可以尝试其他编码方法后,选择最佳一种;3.本数据集的正样本和负样本明显不均衡,下一个优化方向可以是对此进行改进;4.调整RFECV方法的基模型或者是选择其他特征选择方法,得到新的特征子集,新的特征子集有可能带来更好的结果;5.我为了熟悉对决策树的应用,只训练了决策树模型。

2024-08-07 04:22:51 917

原创 【机器学习笔记】决策树剪枝

预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。优点:1.降低了过拟合的风险。2.减少了决策树的训练时间开销和测试时间开销。缺点:1.有欠拟合的风险后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。优点:1.欠拟合风险很小。2.泛化性能往往优于预剪枝决策树。

2024-07-24 21:46:48 595

原创 【机器学习笔记】决策树原理+手算例题

思路:按照某个特征对数据进行划分,这个特征能够最大程度地将原本混乱的结果尽可能划分为有序的几大类,那就以这个特征为跟结点,接着不断重复这一过程直到决策树构建完成。当特征X取值类别较多时,式中的分母也会增大,从而降低了 “偏向取值较多的特征” 这一影响。对比其信息增益,发现是否有自己的房子这一特征,信息增益值最大,所以选择这一特征为根节点。ID3算法的缺点:以信息增益作为划分数据集的特征时,其偏向于选择取值较多的特征。所以构建决策树的实质是对特征进行层次选择,而衡量特征选择的合理性指标,则是熵。

2024-07-20 02:34:07 757

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除