大数据机器学习-笔记
火蓝棋
主要研究海量数据存储、实时计算与机器学习
展开
-
五、大数据机器学习-聚类-笔记
要点1. 聚类任务描述2. 性能度量3.聚类算法原型聚类• K均值算法• 学习向量算法密度聚类层次聚类一、聚类任务• 无监督学习unsupervised learning 标记未知;揭示数据的内在性质和规律• 应用最广的无监督学习:聚类二、性能度量外部指标-计数左边图是外部参考真实划分;右边是聚类算法推测结果。把数据...原创 2020-01-05 22:14:13 · 234 阅读 · 0 评论 -
四、大数据机器学习 - 感知机-笔记
要点• 感知机模型• 感知机学习策略• 感知机学习算法一、感知机它是神经网络技术的基础;是支持向量机模型的基础,它的线性可分性和对偶性形式是SVM算法直接的对应关系。• 针对:二分类问题• 实质:分离超平面,判别模型;• 策略:基于误分类的损失函数;• 方法:利用梯度下降法对损失函数进行极小化;• 特点:感知机学习算法具有简单而易于实现的优点,•...原创 2020-01-05 12:50:06 · 265 阅读 · 0 评论 -
三、大数据与机器学习-模型性能评估-笔记
要点:留出法 交叉验证法 自助法 性能度量PR曲线ROC和AUC曲线、代价敏感错误率、假设检验T检验偏差与方差模型评估方法泛化误差评估:训练集 training set : 用于训练模型验证集 validation setvalidation set : 用于模型选择测试集 test settest : 用于模型泛化误差的近似...原创 2019-10-16 20:24:37 · 1431 阅读 · 0 评论 -
二、大数据与机器学习-机器学习基本概念-笔记
一、基本术语 举例,我们有一些关于橘子和橙子的数据集合,这些记录的集合称为数据集。每条记录是关于一个橙或橘的描述,称为示例或样本。记录中的形状、剥皮、味道称为属性或特征。圆形、扁圆形、难、易、甜为为各自属性或特征的属性值。如果把形状、剥皮、味道设为三个坐标轴、那它们就构成一个描述橙或橘的属性空间或样本空间。每个橘或橙都可以在属性空间中找到自己的坐标位置,我们把每个示例也称为特征向...原创 2019-10-14 19:36:38 · 399 阅读 · 0 评论 -
一、大数据与机器学习-概述-笔记
一、什么是机器学习?机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸 分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以 自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对 未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计 推断学联系尤为密切,也被称为统计学习理论。二...原创 2019-10-09 01:30:04 · 501 阅读 · 0 评论