![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
北京理工大学Python机器学习应用
xiaoyaoyao17
这个作者很懒,什么都没留下…
展开
-
5.K-means 聚类算法
5.K-means 聚类算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低 1.随机选择k个点作为初始的聚类中心 2.对于剩下的点,根据其与聚类中心的距离,将其归入最近的簇 3.对每个簇,计算所有点的均值作为新的聚类中心 4.重复2、3直到聚类中心不再发生改变原创 2017-11-30 20:08:02 · 520 阅读 · 0 评论 -
6 DBSCAN 密度聚类算法
6 DBSCAN 密度聚类算法基于密度进行聚类,一种基于密度进行聚类的算法。 聚类的时候不需要预先指定簇的个数 最终的簇的个数不确定DBSCAN算法将数据点分为三类: 核心点:在半径Eps内含有超过MinPts数目的点。 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内。 噪音点:既不是核心点,也不是边界点。算法流程: 1.将所有点标记为核心点、边界点或噪原创 2017-11-30 20:08:49 · 444 阅读 · 0 评论 -
7 主成成分分析(PCA)降维算法
7 主成成分分析(PCA)降维算法Principal Component Analysis,PCA是一种常用的降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。回顾统计学名词: 方差: 协方差:用于度量两个变量之间的线性相关性程度 特征向量:描述数据集结构的非零向量PCA的原理: 矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就原创 2017-11-30 20:09:43 · 587 阅读 · 0 评论 -
8 非负矩阵分解(NMF) 降维方法
8 非负矩阵分解(NMF) 降维方法非负矩阵分解(Non-negative Matrix Factorization)是在矩阵中的元素均为非负数约束条件之下的非负矩阵分解方法。基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,是得矩阵W和H的乘积近似等于矩阵V中的值。 W 矩阵:基础图像矩阵,相当于从原矩阵V中抽取出来的特征。 V 矩阵:系数矩阵NMF能够广泛应原创 2017-11-30 20:10:35 · 1599 阅读 · 1 评论 -
1.北京理工大学Python与机器学习-绪论
1.北京理工大学Python与机器学习-绪论机器学习分类 监督学习 无监督学习 训练集无人为标注结果 强化学习 半监督学习 深度学习 当下最火的机器学习应用 Python Scikit-Learn库scikit-learn常用算法的调用方法 应用 算法 分类(classfication) 异常检测、图像识别等 聚类(clustering原创 2017-11-25 09:14:39 · 696 阅读 · 0 评论 -
3.sklearn库中的标准数据集及基本功能
3.sklearn库中的标准数据集及基本功能数据集总览 数据集大小 数据集名称 调用方式 适用算法 数据规模 小数据集 波士顿房价数据集 load_boston() 回归 506*13 – 鸢尾花数据集 load_iris() 分类 150*4 – 糖尿病数据集 load_diabetes() 回归 442*10 –原创 2017-11-25 09:19:32 · 1826 阅读 · 0 评论 -
4.无监督学习
4.无监督学习利用无标签的数据学习数据的分布或数据与数据之间的关系。有监督学习和无监督学习的最大区别在于数据是否有标签 无监督学习最常用的场景是聚类和降维。聚类,就是根据数据的“相似性”将数据分为多类的过程。so,如何定义相似性? 根据两个样本之间的距离。 欧式距离 几何距离 曼哈顿距离 也称街区距离 个人理解就是直角三角形两直角边的和 马氏距离 表示数据的协方差距离原创 2017-11-25 09:20:54 · 416 阅读 · 0 评论 -
2.sklearn库安装
2.sklearn库安装scikit-learn简称,是在Numpy、Scipy和matplotlib基础上开发而成,因此使用sklearn库之前需要先安装前几个库Numpy(Numerical Python)是一个开源的Python科学计算库Scipy库是sklearn库的基础,它是基于Numpy的一个集成了多种数学算法和函数的Python模块matplotlib是基于Numpy的一套Python原创 2017-11-25 09:15:46 · 619 阅读 · 0 评论 -
机器学习sklearn iris数据集官方demo
sklearn是谷歌开发的一个机器学习框架,也是很多小伙伴在学习机器学习的时候最早接触的东西。sklearn中自带了四个小数据集,其中一个很常用的就是iris鸢尾花数据集,很多学习算法都可以在这个例子上进行实验。所以,本文我把sklearn官方关于这个数据集在PCA算法上的一个应用代码贴出来,加了一些中文注释和我的解释。# Code source: Gaël Varoquaux# Mod原创 2017-12-08 09:10:50 · 2586 阅读 · 0 评论