![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 92
你huai哦
一只学习大数据的菜鸟
展开
-
聚类算法
概念及简介概念根据给定的样本,依据它们特征的相似度或距离,将样本归类到若干个“类”或“族”的数据分析问题两种常见的聚类算法:层次聚类层次聚类分为聚合和分裂两种方法。聚合法开始将每个样本各自分到一个类中,之后将相距最近的两类合并,简历一个新的类,重复次操作,直到满足停止条件。由此可见,聚合法是自下而上的。分类法开始将所有的样本分到一个类中,之后将已有类中相距最远的样本分到两个新的类,重复此操作,直到满足停止条件为止。由此可见,分类法是自上而下的。K-均值聚类基于中心的聚类方法,通过迭代,将原创 2020-09-02 19:49:26 · 1664 阅读 · 0 评论 -
AdaBoost算法
主要思想Adaboost是一种提升方法。其主要思想就是改变训练样本的权重,学习多个分类器,然后将这些分类器进行线性组合,提升算法的性能。相关概念强可学习:在概率近似正确学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习的弱可学习:一个概念,如果存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好,就称这个概念是若可学习的。基本思路基于这样一种思想:对于一个复杂的任务而言,将多个专家的判断进行适当的综合,所得到的判断,要原创 2020-08-28 14:04:07 · 249 阅读 · 0 评论 -
最大熵模型
前提知识熵:其实就是定义信息的不确定程度,熵越大,信息的不确定性就越强。其实这在决策树算法中就有提到。最大熵原理:第一种定义:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型被认为是最好的模型。第二种定义:在满足约束条件的模型集合中选择熵最大的模型。熵的定义:熵满足下列不等式:其中|x|:表示x取值的个数。在不等式中,当且仅当x满足均匀分布时,右边的等号成立。即当x服从均匀分布时,熵最大。所以:按照个人的理解来看,最大熵原理就是在给定的条件下,每种情况均匀分布是最好的。就好比原创 2020-08-24 15:38:07 · 767 阅读 · 0 评论 -
logistic模型
模型的关键从拟合模型到分类模型。算法前述在做线性拟合的时候知道,当我们赋予不同特征以不同的权重,然后将他们结合起来就能得到一个很好的线性拟合模型。但是这样的模型的确定却不能用于分类的任务。而要想把拟合模型拓展到分类模型上来,就是要将拟合模型中的(-INF,+INF)的值隐射到[0,1]来上。因此:提出一个事件几率的概念:事件几率:一个事件发生的概率比上该事件不发生概率的比值。如果一个事件发生的概率为ρ,那么该事件的几率就是:而事件的logit几率就是这个函数中的定义为[0,1],而其值域刚原创 2020-08-23 20:56:35 · 5771 阅读 · 3 评论 -
决策树算法详解(一)
算法思想模型优点不需要进行数据的预处理模型缺点不支持数据中有缺失变量当某些类占主导地位时,会出现偏差。因此在训练模型之前最好先平衡数据集标题原创 2020-08-11 18:35:27 · 1798 阅读 · 1 评论