![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习与数据分析
文章平均质量分 87
呦柚子
这个作者很懒,什么都没留下…
展开
-
[机器学习与数据分析] 集成学习结合策略
集成算法就是训练一堆基学习器,然后通过某种策略把各个基学习器的结果进行合成,从而得到集成学习器的结果。优点1)提高泛化性能 2)降低进入局部最小点的风险 3)扩大假设空间平均法简单平均、加权平均:对于数值类的回归预测问题,通常使用的结合策略是平均法,也就是说,对于若干个弱学习器的输出进行平均得到最终的预测输出。对数值型(连续)输出,最常见的结合策略为平均法。1)简单平均法(simple averaging)2)加权平均法(weig...原创 2021-09-22 21:26:20 · 1229 阅读 · 0 评论 -
[机器学习与数据分析] 集成学习(Ensemble Learning)
在机器学习的有监督学习算法中,目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成学习在各个规模的数据集上都有很好的策略。 数据集大:划分成多个小数据集,学习多个模型进行组合。 数据集小:利用Boo...原创 2021-09-03 16:04:45 · 964 阅读 · 0 评论 -
常见问题总结[1]
模型评估方法Accuracy作为指标有哪些局限性? 分类准确率是指分类正确的样本占总样本个数的比例,即,意义为:被正确分类的样本个数占总体样本个数的比率。 准确率是分类问题中最简单最直观的评价指标,但存在明显的缺陷。比如负样本占99%时,分类器把所以样本都预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素,此时准确率指标并不足以说明分类器的好坏。 对于此种问题,可以使用更为有效的平均准确率(每个类别下的样本准原创 2021-08-05 22:54:24 · 645 阅读 · 0 评论 -
[机器学习与数据分析] 常见问题
(1) 无监督和有监督算法的区别?有监督学习: 对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。无监督学习: 对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习。(2) SVM的推导,特性?多分类怎么处理?SVM是最大间隔分类器,几何间隔和样本的误分次数之间存在.转载 2021-07-20 22:25:36 · 820 阅读 · 0 评论 -
[机器学习与数据分析] 时间序列聚类方法
聚类分析(cluster analysis)简称聚类(clustering),它是数据挖掘领域最重要的研究分支之一,也是最为常见和最有潜力的发展方向之一。聚类分析是根据事物自身的特性对被聚类对象进行类别划分的统计分析方法,其目的是根据某种相似度度量对数据集进行划分,将没有类别的数据样本划分成若干个不同的子集,这样的一个子集称为簇(cluster),聚类使得同一个簇中的数据对象彼此相似,不同簇中的数据对象彼此不同,即通常所说的“物以类聚”。时间序列的聚类在工业生产生活中...原创 2021-07-19 15:42:09 · 3986 阅读 · 0 评论 -
[机器学习和数据分析] 分类与聚类
分类分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。 分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。 通过学习来得到样本属性与类标号之间的关系。 局限:作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海.原创 2021-07-17 11:36:45 · 534 阅读 · 0 评论 -
[机器学习和数据分析] 监督与无监督
一、统计(机器)学习 统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。统计学习的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进...原创 2021-07-16 21:01:06 · 1258 阅读 · 0 评论 -
[机器学习与数据分析] 数据分析常用方法
一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。集中趋势分析:主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?离中趋势分析:主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,想知...转载 2021-07-16 11:00:33 · 2841 阅读 · 0 评论