机器学习
文章平均质量分 92
机器学习相关技术
秘境之眼
业精于勤,荒于嬉;行成于思,毁于随。
展开
-
机器学习分类与性能度量
机器学习分类与性能度量数据集:训练集(Training Set)、验证集(Validation Set)和测试集(Test Set)1、 当模型无需人为设定超参数,所用参数都通过学习得到,则不需要验证集。验证集适合多个不同超参数训练多个模型,通过验证集,选择最好的模型及其相应的超参数。2、监督学习(supervised learning ): 有导师学习,分类和回归从给定的训练数据集中学习出一个函数(模型参数),当输入新数据时,可以根据这个函数预测结果。分类(classification):原创 2021-03-02 11:10:07 · 340 阅读 · 0 评论 -
机器学习
机器学习sklearn基础功能:主要使用python的sklearn库:sklearn库共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。 各模块功能介绍 分类任务 分类模型 加载模块 最近邻算法 neighbors.NearestNeighbors 支持向量机 svw.SVC 朴素贝叶斯 ...原创 2019-06-22 15:45:42 · 794 阅读 · 0 评论 -
无监督学习
目标利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。有监督学习与无监督学习的最大去区别在于数据是否有标签。无监督学习最常见的应用场景是聚类和降维。聚类 聚类,就是根据数据的“相似性”将数据分为多类的过程。 相似性评估:计算两个样本间的距离。 几个距离公式: 欧式距离:曼哈顿距离,也称城市街区距离。马氏距离,表示数据的协方差,...原创 2019-06-23 15:40:39 · 678 阅读 · 0 评论 -
python-DBSCAN密度聚类
1.DBSCAN 算法是一种基于密度的聚类算法:聚类的时候不需要预先指定簇的个数。 最终的簇的个数不定。2.DBSCAN 算法将数据点分为三类:核心点:在半径Eps内含有超过MinPts数目的点 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点在邻域内 噪音点:既不是核心点也不是边界的点 3.算法流程将所有点标记为核心点...原创 2019-06-26 13:17:03 · 1405 阅读 · 0 评论 -
python-主成分分析-降维-PCA
PCA算法及其应用主成分分析(PCA) 主城成分分析(PCA):常见的降维方法,用于高维数据集的探索与可视化,还可以用作数据压缩和预处理。 PCA 可以把具有相关性的高维变量合成为线性无关的低维变量,成为主成分,主成分能够保留原始数据的信息。 相关知识及术语 方差:是各个样本和样本均值的差的平方和的均值,用来度量一维数据的分散程度。 ...原创 2019-06-28 17:30:41 · 829 阅读 · 0 评论 -
python-非负矩阵分解-NMF
非负矩阵分解非负矩阵分解是矩阵中所有元素均为非负数约束条件下的矩阵分解,其基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和矩阵H的乘积近似等于矩阵V中的值。 矩阵:被称为基础图像数据,相当于从原始矩阵中抽取出来的特征。 H矩阵:系数矩阵 NMF广泛应用于图像分析,文本...原创 2019-06-28 21:41:11 · 3748 阅读 · 10 评论 -
python-聚类图像分割
K-Means聚类图像分割 图像分割: 利用图像的灰度,颜色,纹理,形状等特征,把图像分成若干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同区域之间存在明显的差异性。然后,就可以将分割的图像中具有独特性质的区域提取出来用于研究。 常用方法: 阈值分割:对图像进行度量,设置不同类别的阈值,达到分割目的。 边缘分割:对图像边缘进行检测,即即检测图像中灰度值放生跳...原创 2019-06-29 15:06:11 · 2662 阅读 · 0 评论 -
有监督学习
有监督学习利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。 分类:当输出为离散的,学习任务为分类任务。 回归:当输出为连续的,学习任务为回归任务。 训练集:用来训练的已标注的数据,用来建立模型,发现规律。 测试集:已标注的数据,通常隐藏标记,输送给以训练的模型,通过结果与真实标记对比,评估模型的学习能力。 训练集/测试集...原创 2019-06-30 09:49:13 · 1270 阅读 · 0 评论 -
python-k近邻分类器-KNN
K近邻分类器,通过计算待分类数据点,与已有数据集点的所有数据点的距离。取距离最小的前K个点,根据“少数服从多数”的原则,将这个数据点划分为出现次数最多的那个类别。 sklean库s,可以使用sklean.neighbors.KNeighborsClassiffier创建k近邻分类器 主要参数:n_neighbors:指定K的大小(默认为5) weights:设置选中k个点对分类结果影响的...原创 2019-06-30 13:14:19 · 1389 阅读 · 0 评论 -
python- 决策树分类器
树形结构分类器,通过顺序询问分类点的属性决定分类点的最终类别。通常根据特征的信息增益或其他指标。构建棵决策树,在分类时,只需要按照决策树中的结点一次顺序判断,即可得到样本所属的类别。 sklearn库:可以使用sklearn.treeDecision.DecisionTreeClassifier,参数如下:criterion:用于属性选择的准则,可以传入基尼系数‘gin...原创 2019-06-30 13:19:01 · 1431 阅读 · 0 评论 -
python-朴素贝叶斯分类器
朴素贝叶斯分类器朴素贝叶斯分类器是一个以贝叶斯定理为基础的多分类的分类器。对于给定数据,首先基于特征的条件独立性假设,学习输入输出的联合概率分布, 然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率的最大的输出y 在sklean中,实现了三个朴素贝叶斯分类器:分类器 描述 naive_bayes.GaussianNB 高斯朴素贝叶斯 naive_bayes...原创 2019-06-30 13:27:17 · 435 阅读 · 0 评论