
机器学习
文章平均质量分 95
大白兔黑又黑
这个作者很懒,什么都没留下…
展开
-
机器学习笔记(十二)谱聚类原理和实践
本文我们继续介绍聚类家族中的另一个成员——谱聚类(Spectral clustering)。谱聚类最早来源于图论,后来由于性能优异,被广泛应用于聚类中。相比K-Means等聚类算法,谱聚类对数据分布的适应性更强(如kmeans要求数据为凸集,谱聚类对数据结构并没有太多的假设要求),聚类效果也很优秀,同时聚类的计算量也小很多(意味着更快的速度),也无需像GMM一样对数据的概率分布做假设,更加难能可贵的是实现起来也不复杂。因此,如果有一个需要尝试聚类解决的问题,那么谱聚类一定是你的优先选择之一。当然,每一种算法原创 2021-03-19 14:22:50 · 4278 阅读 · 0 评论 -
机器学习笔记(十一)聚类算法OPTICS原理和实践
OPTICS聚类算法是基于密度的聚类算法,全称是Ordering points to identify the clustering structure。提到基于密度的聚类算法,应该很快会想到前面介绍的DBSCAN聚类算法,事实上,OPTICS也是为了优化DBSCAN而出现的。一、原理在DBSCAN算法中,有两个比较重要的参数:邻域半径eps和核心对象的最小邻域样本数min_samples,选择不同的参数会导致最终聚类的结果千差万别,而在高维数据中,两个参数的联合调参也不是一件容易的事。OPTICS原创 2021-02-24 18:59:05 · 12331 阅读 · 12 评论 -
机器学习笔记(十)聚类算法DBSCAN原理和实践
在前面的文章中,我们分别介绍了《K-means原理和实践》和《Birch和层次聚类》两种聚类算法,本文我们继续介绍另一种常用的聚类算法DBSCAN。相对于前两种算法,DBSCAN的原理要简单的多,但是这并不意味着它的效果就会差,在很多算法表现不好的非凸数据集上,DBSCAN往往能取得较好的效果,这也是DBSCAN最大的优势,而且DBSCAN还可以作为异常检测算法,发现噪声点(离群点)。1. 原理DBSCAN(Density-Based Spatial Clustering of Applicatio原创 2021-01-27 18:32:26 · 22556 阅读 · 3 评论 -
机器学习笔记(九)聚类算法Birch和层次聚类Hierarchical clustering
本篇文章我们继续介绍另一种聚类算法——Birch模型,相对于K-means和DBSCAN,Birch的应用并没有那么广泛,不过它也有一些独特的优势,Birch算法比较适合于数据量大,类别数K也比较多的情况,它运行速度很快,只需要单遍扫描数据集就能进行聚类,这在数据量日益庞大的今天是一个比较大的优势。一、原理Birch(Balanced Iterative Reducing and Clustering using Hierarchies)是层次聚类的典型代表,天生就是为处理超大规模数据集而设计的,它原创 2021-01-15 17:01:51 · 7085 阅读 · 0 评论 -
机器学习笔记(八)KNN原理详解和实践
一、KNN原理K近邻法(k-nearest neighbors,KNN)是一种应用比较多的机器学习算法模型,其核心思想就是未知的对象总是和距离自己最近的群体类似。简单地说就是一个人如果经常和好人走的近,那么我们可以认为(大概率)他是好人,如果他经常和坏人混迹在一起,那么我们就会认为他更可能是坏人,在推荐领域,KNN 可以用来为消费行为相似的人推荐商品。现在还有一个不确定的问题,就是距离最近的群体怎么衡量呢?这也正是KNN中K的含义,就是找距离自己最近的K个样本。这里需要注意 KNN 中的 K 和 K-M原创 2021-01-06 16:05:13 · 2855 阅读 · 0 评论 -
机器学习笔记(七)聚类算法K-means原理和实践
在机器学习领域,除以LR、DT、SVM等为代表的有监督算法外,还有另外一类特殊的存在——无监督算法,其中最为经典就是聚类算法了。聚类算法因为其不需要先验标签,因此在很多领域应用都较为广泛。聚类算法主要有:K-means、DBSCAN、Birch、Spectral clustering、OPTICS等,在本篇文章以及接下来的几篇文章中我们会依次介绍这些算法。1.K-means原理K-means的实现比较简单,聚类效果也不错,因此应用比较广泛。对于给定的样本集,K-means按照样本之间的距离大小,将.原创 2020-12-25 16:54:31 · 11638 阅读 · 0 评论 -
机器学习笔记(六)Boosting集成学习算法Adaboost和GBDT
在前一篇文章中我们介绍了集成学习算法中的Bagging模型,本篇文章将继续介绍集成学习算法中的另一个代表性算法Boosting模型。Boosting是一种可将弱学习器提升为强学习器的算法。其工作机制为:先从初始训练集训练出一个基学习器,再根据基学习器的表现对样本分布进行调整,使得先前的基学习器识别错误的训练样本在后面的基学习器中得到更多的关注(调高权重),然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到实现指定的值,或整个集成结果达到退出条件,然后将这些学习器进行加权组合得到原创 2020-12-23 09:55:01 · 3327 阅读 · 0 评论 -
机器学习笔记(五)Bagging集成学习算法随机森林原理和实践
一、前言在前一篇文章《决策树原理和实践》中,我们介绍了决策树的相关原理和使用API,决策树在建模过程中需要剪枝等操作,而如果数据预处理不当或者剪枝不合理,又会造成过拟合等结果,或者建立的模型只在某个方面表现比较好。此时,我们会考虑建立单棵树模型可能会存在走上“歧途”的现象,那么是不是可以通过建立多棵树模型一起来判断结果呢?答案当然是可以的,具体怎么建立呢?如果使用相同的数据集和算法,那么建立的模型结果大概率也是相同的,就失去了意义。接下来的几篇文章我们将介绍集成学习算法(Ensemble learnin原创 2020-11-25 14:55:04 · 2865 阅读 · 0 评论 -
机器学习笔记(四)决策树原理和实践
一、背景在上一篇文章中,我们讲解了线性回归和逻辑回归的相关数学推导和Python实现,本篇文章我们将继续下一个机器学习中一个非常重要的模型——决策树的学习。决策树之所以叫决策树,是和它的原理紧密相关的,看下面这个场景,是不是很熟悉。首先看天气情况,然后根据天气情况做下一步决定,如果天气好,再看游泳馆是否开放,如果天气不好,再视父母是否在家来做决定,最终会有三种选择,或者可以认为是一个三分类问题。这就是一个典型的决策树场景,树的深度是3,从根节点(天气)开始,根据每一步的条件,决策下一步的计划(非叶子节点原创 2020-10-28 16:21:01 · 1412 阅读 · 0 评论 -
基于双k8s集群搭建联邦学习kubefate
一、前言关于联邦学习的背景这里就不做过多介绍了,感兴趣的同学可以去百度一下。联邦学习主要是为了解决数据孤岛和多方安全计算问题的,简单地说就是大家都拿出各自的数据一起建模,但是对方又不能看到或者得到自己的数据,训练的模型大家都可以用。联邦学习分为:横向联邦学习,在两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向 (即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练,例如,银行A和银行B都有自己的客户流水信息,特征是一样的,交易时间、金额等,但是用户不同原创 2020-08-27 11:18:44 · 1667 阅读 · 1 评论 -
机器学习笔记(三)线性回归逻辑回归原理和实践
线性回归和逻辑回归作为机器学习领域的基础模型,简单却也经典。机器学习领域一般有两种任务:分类和回归。分类通常是判断未知样本属于哪一类,例如0和1,好和坏,大和小等等,而回归不仅仅是判断是是什么,还要判断是多少的任务。一、线性回归线性回归是常见的机器学习模型,也是很多人学习机器学习的第一个模型,并且因为线性回归的数学原理比较简单,可以帮助初学者把机器学习和数学原理比较清晰的结合理解。1.1 平面拟合假如有一个银行贷款的任务,根据贷款人的工资和年龄来决定贷款金额。现在我们有一批银行实际的贷款数据原创 2020-08-15 17:35:01 · 845 阅读 · 0 评论 -
机器学习笔记(二)常用分析工具
机器学习常用的不仅仅是各种模型,还有数据分析、数据处理和可视化等,python、R等语言也提供了很多有用的工具包。一、pandaspandas在数据分析中的作用无需多数。下文的pd表示pandas库,df表示实际中的DataFrame实例。1. df.pivotpivot是pandas中的数据透视表操作,实际上就是针对某列的行转列操作,参数如下:pivot(self, index=None, columns=None, values=None)index是重塑的新表的索引名称是什么原创 2020-07-31 18:34:21 · 610 阅读 · 0 评论 -
机器学习笔记(一)数据预处理
在机器学习建模中,因为大多数数据并不是格式化、规范化数据,不能直接输入到模型中,因此,第一步往往是根据数据分析结果对数据进行预处理,或者叫特征处理,常见的数据预处理过程包括:标准化、离散化、降维、数据抽样等。1. 数据标准化(1)最大最小值归一化最大最小值归一化和下面的正态标准化是最常用到的数据标准化方法,原理也比较简单,即直接根据比例把数据映射到[0,1]之间的某个数值,常用在最大、...原创 2020-04-01 13:46:58 · 847 阅读 · 0 评论