机器学习
文章平均质量分 95
机器学习相关算法
干炒 牛河
这个作者很懒,什么都没留下…
展开
-
逻辑回归介绍(案例:癌症分类预测)
广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号逻辑回归就是解决二分类问题的利器。原创 2023-12-15 16:24:33 · 1246 阅读 · 0 评论 -
机器学习-聚类算法
参数: n_clusters:开始的聚类中⼼数量,整型,缺省值 = 8,生成的聚类书,即产生的质心数。方法:estimator.fit(x);计算聚类中心并预测人每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)优化方法思路Canopy粗聚类配合kmeanskmeans++距离越远越容易成为新的质心二分k-means拆除SSE最⼤的簇k-medoids和kmeans选取中心点的方式不同映射到⾼维空间ISODATA动态聚类,可以更改K值大小。原创 2023-12-24 09:34:49 · 964 阅读 · 0 评论 -
决策树算法
ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。ID3算法只能对描述属性为离散型属性的数据集构造决策树。将任意数据(文本或图像)转换为可用于机器学习的数字特征。注:特征值化是为了计算机更好的去理解数据。字典特征提取(特征离散化)文本特征提取图像特征提取如何选择划分点?如何决定叶节点的输出值?一个回归树对应着输入空间(特征空间)的一个划分以及在划分单元上的输出值。原创 2023-12-18 16:33:13 · 795 阅读 · 0 评论 -
机器学习-集成学习
随机森林的Bagging过程,对于每一棵训练出的决策树gt,与数据集有着一下关系:对于*部分的,是指没有选择到的数据,称为Out-of-bag(OOB)数据,当数据足够多,对于任意一组数据(xn,yn)是包外数据的概率为:由于基分类器是构建在训练样本的自助抽样集,只有约63.2%原样本集中出现在中,而剩余的36.8%的数据作为包外数据,可以用于基分类器的验证集。经验证,包外估计是对集成分类器泛化误差的无偏估计。在随机森林算法中数据集属性的重要性,分类器强度和分类器间相关性计算都依赖于带外数据。原创 2023-12-22 09:39:34 · 884 阅读 · 0 评论 -
机器学习——拓展知识
随着维度的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降。有⼀系列的图片,每张图⽚的内容可能是猫也可能是狗;我们需要构造⼀个分类器能够对猫、狗自动动的分类。首先,要寻找到⼀些能够描述猫和狗的特征,这样我们的分类算法就可以利用这些特征去识别物体。猫和狗的皮毛颜色可能是⼀个很好的特征,考虑到红绿蓝构成图像的三基色,因此用图片三基色各自的平均值称得上方便直观。原创 2023-12-25 14:45:57 · 862 阅读 · 0 评论