自学机器学习之路
文章平均质量分 87
该系列文章是整个学习过程的一些总结和感悟,写这个系列更多是作为自己的学习笔记,同时也希望能对各位有一些帮助。我的目标是希望自己能把机器学习这个“黑盒子”变成一个“白盒子”或者“灰盒子”,仅此而已。以下为系列文章,会不断更新。如有不足或错误请大家及时指出纠正。谢谢。
nobody~
这个作者很懒,什么都没留下…
展开
-
异常检测算法之HBOS
前言HBOS(Histogram-based Outlier Score)核心思想:将样本按照特征分成多个区间,样本数少的区间是异常值的概率大。原理该方法为每一个样本进行异常评分,评分越高越可能是异常点。评分模型为:假设样本p第 i 个特征的概率密度为Pi ,则p的概率密度可以计算为(多个特征的概率密度的乘积):两边取对数:概率密度越大,异常评分越小,则两边乘以“-1”:即:如何计算概率密度,特别是对于连续型数据?最简单的方法是对连续数据进行离散化。离散化的基本思想是设置“断点”,原创 2021-09-07 14:17:28 · 1447 阅读 · 0 评论 -
异常检测算法之LOF
前言:LOF:Local outlier factor,即局部异常因子。LOF主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点,如果点p的密度越低,越可能被认定是异常点。至于密度,是通过点之间的距离来计算的,点之间距离越远,密度越低,距离越近,密度越高,完全符合我们的理解。而且,因为lof对密度的计算是通过点的k邻域来计算,而不是全局计算,因此得名为“局部”异常因子。即LOF是基于密度分析,通过局部的数据密度来检测异常。原理LOF算法,是基于密度的离群点检测方法中一个比较有代表性的算法。该原创 2021-09-07 11:29:32 · 13407 阅读 · 4 评论 -
异常检测算法之IForest
前言IForest即孤立森林,可以用于做异常检测。一句话总结IForest做异常检测的原理:异常点密度小,基于树模型容易被一下切割出来,正常值密度大,需要切割多次才能得到目标值。原理iForest算法得益于随机森林的思想,与随机森林由大量决策树组成一样,iForest森林也由大量的二叉树组成。iForest中的树叫isolation tree,简称iTree。iTree树和决策树不太一样,其构建过程也比决策树简单,是一个完全随机的过程。每个iTree的实现步骤1、 假设数据集有N条数据,构建一颗i原创 2021-09-02 14:20:01 · 3661 阅读 · 1 评论 -
机器学习算法之KNN
前言KNN一般用于有监督的分类场景,除此之外,KNN在异常检测场景中也有应用,下面主要介绍下KNN在这两面的应用原理。KNN做分类的原理计算步骤如下:1)算距离:给定测试对象,计算它与训练集中的每个对象的距离2)找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻3)做分类:根据这k个近邻归属的主要类别,来对测试对象分类(看未知类别样本最近的K个样本的类别,那种类别多,样本就属于那种类别!)优缺点KNN优点:理论成熟,思想简单,既可以用来做分类也可以用来做回归可用于非线性分类训练原创 2021-09-01 16:33:01 · 1034 阅读 · 0 评论 -
聚类效果评估指标总结
前言实际工作中经常会用到一些聚类算法对一些数据进行聚类处理,如何评估每次聚类效果的好坏?可选的方法有1、根据一些聚类效果的指标来评估;2、直接打点。今天就主要总结下这段时间了解的聚类效果评估指标。废话少说,直接上干货。针对数据有类别标签的情况Adjusted Rand index (ARI)优点:1.1 对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0;1.2 取值在[-1,1]之间,负数代表结果不好,越接近于1越好;1.3 可用于聚类算法之间的比较缺点:1.4 ARI需要真实原创 2021-08-30 14:42:16 · 33331 阅读 · 2 评论 -
机器学习之EM算法的原理推导及相关知识总结
文章目录1、知道先验概率和后验概率2、了解高斯混合模型GMM3、通过最大似然估计推导EM算法的过程的实例4、EM算法5、知道pLSA模型1、知道先验概率和后验概率先验概率(prior probability)是指根据以往经验和分析得到的概率(理解为自定义概率)。而后验概率是在考虑了一个事实之后的条件概率。2、了解高斯混合模型GMMEM是K-means的推广以下的两个问题都是属于无监督学习...原创 2018-09-17 20:34:16 · 1200 阅读 · 0 评论 -
机器学习之聚类算法的原理推导及相关知识总结
1、知道几个关于”差”的概念2、理解相似度度量的各种方法和相互关系2.1、欧氏距离2.2、jaccard相似系数2.3、余弦相似度2.4、Pearson相似系数3、掌握掌握K-Means算法3.1、知道聚类的思想3.2、K-Means算法原理3.3、知道K-Mediods聚类3.4、如何选取K-means的初始值3.5、K-means的目标函数4、知道聚类的衡量...原创 2018-09-15 17:00:54 · 1793 阅读 · 0 评论 -
机器学习之朴素贝叶斯算法的推理及相关知识总结
1、朴素贝叶斯公式1.1、贝叶斯公式的应用2、了解贝叶斯网络2.1、知道什么是贝叶斯网络贝叶斯网络又称为有向无环图模型,是一种概率图模型,根据概率图的拓扑结构,考察一组随机变量(X1,X2,X3…Xn)及其n组条件概率分布的性质2.2、贝叶斯网络的两种表示形式2.3、掌握全连接的贝叶斯网络的公式p(x1,x2…,xk)=p(xK|x1,…,xK-1)…p(x2|x1)p(x...原创 2018-09-19 20:38:16 · 690 阅读 · 2 评论 -
机器学习之支持向量机(SVM)总结
目录:1、知道SVM相关的各种概念2、知道目标函数、损失函数、正则项的意义2.1、目标函数2.2、损失函数2.3、正则化(添加噪音避免过拟合)3、了解SVM算法原理4、知道SVM的目标函数5、知道SVM的损失函数以及公式6、知道SVM支持向量机的计算过程6.1、推导过程:6.2、推导实例7、了解核函数相关知识8、了解SVM算法的调参技巧目录:...原创 2018-09-12 20:39:35 · 1922 阅读 · 0 评论 -
机器学习之提升算法
1、知道提升、梯度提升是什么意思1.1、提升1.2、梯度提升1.3、了解提升算法的过程2、残差与残差平方和(residual sum of squares)3、了解GBDT算法4、了解XGBoost算法5、了解Adaboost算法5.1、Adaboost算法的原理5.2、例子6、偏差和方差1、知道提升、梯度提升是什么意思1.1、提升每一步产生一...原创 2018-09-10 20:07:09 · 956 阅读 · 0 评论 -
机器学习之决策树与随机森林
目录1、了解熵、条件熵、互信息的概念及公式1.1、熵1.2、条件熵1.3、信息增益/互信息2、了解决策树2.1、了解决策树的概念和特点以及和熵的关系2.2、了解树生成的过程2.3、了解决策树三种算法的区别2.4、了解决策树的损失函数2.5、了解解决决策树过拟合的方法2.6、了解后剪枝的过程3、了解Bagging和随机森林4、掌握样本不均衡常用的处理方法...原创 2018-09-02 22:30:02 · 759 阅读 · 0 评论 -
机器学习之回归总结
目录1、了解线性回归2、了解似然函数3、了解交叉验证的原理4、梯度下降算法1、批量梯度下降算法(Batch Gradient Descent,简称BGD):2、随机梯度下降算法(SGD):3、折中:5、了解一些参数指标6、了解Logistic回归7、了解最小二乘法目录1、了解线性回归当只有一个变量的时候,可以表示为下面的式子。 当为多个特征...原创 2018-09-02 16:52:05 · 1225 阅读 · 0 评论 -
机器学习之凸优化原理推导及相关知识总结
1、了解凸集和仿射集的基本概念。凸集:在凸集内部的两个点之间的线段仍在图形内,则称这个图形为凸集。 仿射集:通过集合中任意两个不同点的直线仍然在这个集合内则称为这个集合的仿射集。 仿射集说的是直线,凸集说的是线段。 2、知道几何体的向量表达。两个θ+(1-θ)=1代表的是两个点之间的关系是直线关系,如果不等于1则代表是其他的非线性的关系。 3、了解超平面和半空间的概...原创 2018-09-01 13:43:48 · 1474 阅读 · 0 评论 -
机器学习中目标函数、损失函数以及正则项的通俗解释
前言:今天看到一篇很精简的文章来说明目标函数、损失函数以及正则项是什么。以下是文章正文。 转自:https://xiaozhuanlan.com/topic/7504682391什么是目标函数?定义是:指所关心的目标与相关的因素的函数关系。举个例子,假如我们想要预测公司楼下手抓饼店明天能卖多少张手抓饼,已知过去10天每天卖多少,以及每天的天气情况,是否有节假日,和手抓饼店老板和老...转载 2018-05-30 16:46:19 · 4082 阅读 · 2 评论 -
各种机器学习开源项目精选TOP30
8800个机器学习开源项目为你精选TOP30!授权自AI科技大本营(ID: rgznai100) 本文共图文结合,建议阅读5分钟。 本文为大家带来了30个广受好评的机器学习开源项目。最近,Mybridge发布了一篇文章,对比了过去一年中机器学习领域大约8800个开源项目后,选出30个2017年度优秀的开源项目,包含机器学习开源库、数据库以及其他应用程序,这些项目差不多都是在2017年1转载 2018-02-02 18:14:59 · 1621 阅读 · 0 评论 -
机器学习各算法思想(极简版)
线性回归,K-聚类分类,SVM(支持向量机),随机森林,逻辑回归, 因子分析,人工神经网络,AdaBoost,最大熵模型,关联规则,主成分分析,朴素贝叶斯,决策树转载 2017-04-20 20:04:14 · 2032 阅读 · 0 评论 -
机器学习笔记之SVM(SVR)算法
学过SVM后,看了那么多别人的文章,是时候自己总结一波了。权当写的笔记供自己日后再回顾吧。 PS:结合自己在工作过程中(我用SVR做股票预测)用到的知识来写的,不会很全面,若有些知识这里没提及读者可自行查找。 1 概述 支持向量机(support vector machine)是一种分类算法,但是也可以做回归,根据输入的数据不同可做不同的模型(若输入标签为连续值则做回归,若输入标签为分类值则做原创 2017-04-19 17:22:03 · 82047 阅读 · 11 评论 -
初学大数据之如何选择机器学习算法
最近在国外网站看到一篇不错的文章,所以就翻译过来给大家分享一下。主要介绍初学者怎么选择机器学习算法,希望对各位初学者有帮助。 原文如下: 一个初学者面临各种机器学习算法的典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素,包括:数据的大小,质量和性质。可用的计算时间。任务的紧迫性。你想对数据做什么即使是经验丰富的数据科学家也不能在尝试不同的算法之前,判断哪种算法会最好。我们并不翻译 2017-04-15 16:01:57 · 1046 阅读 · 0 评论 -
Random Forest随机森林概述
引言在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林可以既可以处理属性为离散值的量,如ID3算法转载 2017-03-16 13:26:48 · 1254 阅读 · 0 评论 -
Random Forest算法参数解释及调优
文章介绍了如何对随机森林模型进行参数调优原文来自:http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/为什么要调整机器学习算法?一个月以前,我在kaggle上参加了一个名为TFI的比赛。 我第一次提交的结果在50%。 我不懈努力在特征工程上花了超过2周的时间,勉强达到20%。 出乎我意料的事是,在翻译 2017-03-10 16:58:49 · 88198 阅读 · 9 评论 -
SVM和SVR简介
1、支持向量机( SVM )是一种比较好的实现了结构风险最小化思想的方法。它的机器学习策略是结构风险最小化原则 为了最小化期望风险,应同时最小化经验风险和置信范围)支持向量机方法的基本思想:( 1 )它是专门针对有限样本情况的学习机器,实现的是结构风险最小化:在对给定的数据逼近的精度与逼近函数的复杂性之间寻求折衷,以期获得最好的推广能力;( 2 )它最终解决的是一个凸二次规转载 2017-03-02 09:55:52 · 11874 阅读 · 0 评论 -
Random Forest算法中的参数详解
本篇不是介绍RF的,关于RF网上有很多通俗易懂的解释西瓜书与统计学习方法等很多教材中的解释也都足够本篇仅针对如何使用sklearn中的RandomForestClassifier作记录一、代码怎么写[python] view plain copy print?class sklearn.ensemble.RandomForestC转载 2017-02-28 14:46:05 · 6222 阅读 · 2 评论 -
集成学习之参数调整策略
1 Random Forest和Gradient Tree Boosting参数详解 在sklearn.ensemble库中,我们可以找到Random Forest分类和回归的实现:RandomForestClassifier和RandomForestRegression,Gradient Tree Boosting分类和回归的实现:GradientBoostingClassifier和转载 2017-02-28 14:34:42 · 2838 阅读 · 0 评论 -
机器学习之线性代数总结
目录1、SVD是什么、表达式是什么及对应的数学含义;2、了解方阵、行列式的含义(方阵即矩阵,行列式即矩阵的计算结果)3、了解代数余子式的概念4、伴随矩阵的概念5、知道方阵的逆的公式、范德蒙行列式6、知道矩阵的乘法实际上对应的是一个维度的空间到另一维度空间的映射7、知道矩阵的秩的概念8、知道系数矩阵、正交阵9、掌握特征值和特征向量目录1、SVD是什么、表达...原创 2018-08-31 14:08:33 · 1243 阅读 · 0 评论 -
机器学习之数理统计与参数估计的相关知识总结
1、知道期望/方差/偏度/峰度,协方差和相关系数,独立和不相关等这些概念是什么。期望(均值):离散型和连续型。(求面积) 方差:表示数据的离散程度。对应的表达式:E(x2)-E2(x) 偏度的数学含义:衡量随机变量概率分布的不对称性。 峰度的数学含义:是概率密度在均值处峰值高低的特征。 标准差:方差开平方 协方差:表示两个变量的离散程度。是方差的一般形式。协方差是两个...原创 2018-08-26 22:59:16 · 744 阅读 · 0 评论 -
机器学习中的数学基础相关知识总结
以下为自己在学习机器学习的过程中总结的所需的一些基本的数学知识,如有不足或错误请指出,会保持不断的更新。1、导数(曲线变化的快慢)、二阶导数(曲线斜率变化的快慢特别是反映曲线的凸凹性)的概念。 2、常用的导数公式: 3、微分和积分的数学含义:微分对应的是导数、积分对应的是面积。除此之外要了解对应的常见的计算操作如分部积分操作等。 4、泰勒公式及含义 一句话说明泰勒公式的含义:用...原创 2018-08-19 16:52:09 · 721 阅读 · 0 评论