大数据分析与挖掘
文章平均质量分 87
要奶茶也要啵啵吖
喜欢记录学习过程的小菜鸡,若您也在学习这些,不妨一起加油,一起互相监督。若文章有错的地方还请多多指教吖
展开
-
【大数据分析与挖掘】K-Means聚类算法
介绍对于有监督的数据挖掘算法而已,数据集中需要包含标签变量(即因变量y的值)。但在有些场景下,并没有给定的y值,对于这类数据的建模,一般称为无监督的数据挖掘算法,最为典型的当属聚类算法。K-Means聚类算法利用距离远近的思想将目标数据聚为指定的k个簇,进而使样本呈现簇内差异小,簇间差异大的特征。聚类算法的目的就是依据已知的数据,将相似度高的样本集中到各自的簇中。聚类算法不仅可以实现数据分隔,还可以用于异常点监控。K-Means的思想是基于点(样本点)之间的距离实现“物以聚类”。区别支持向量机原创 2021-12-30 08:45:00 · 969 阅读 · 0 评论 -
【大数据分析与挖掘】KNN模型、朴素贝叶斯模型、SVM支持向量机模型学习笔记
目录KNN模型核心思想算法步骤度量方法朴素贝叶斯模型优缺点核心假设公式SVM支持向量机模型核心思想KNN模型KNN模型为有监督的学习算法,中文名为K最近邻算法。k最近邻算法是数据挖掘中最简单的分类算法之一。它属于“惰性”学习算法,其惰性在于不会从训练数据中学习判别函数(即模型),而是将模型的构建与未知数据的预测同时进行,靠记忆训练数据(仅仅保存训练样本)来完成预测任务。因此,在整个学习过程中,它付出的训练代价为零。KNN既可以针对离散型变量做分类,又可以对连续型变量做回归预测。核心思想核心思想原创 2021-12-29 13:08:09 · 1535 阅读 · 0 评论 -
【大数据分析与挖掘】决策树(ID3、C4.5、CART)与随机森林、集成学习学习笔记,Boosting与Bagging
目录一.决策树与随机森林1.决策树①ID3②C4.5③CART区别过拟合和剪枝处理2.集成学习①提升(Boosting)Adaboost②袋装(Bagging)随机森林(Random Forest)一.决策树与随机森林1.决策树一种类似于流程图的树结构,属于经典的十大数据挖掘算法之一,其规则就是IF…THEN…(IF…ELSE…)的思想,可用于数值型因变量的预测和离散型因变量的分类,是一种有监督学习模型,常被用于分类问题和回归问题。决策树是一类机器学习算法,他们的共同点都是采用了树形结构,基本原理都原创 2021-12-28 19:31:39 · 1026 阅读 · 0 评论