![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 70
机器学习
YJ语
这个作者很懒,什么都没留下…
展开
-
判别式模型和生成式模型
判别式模型 (Discriminative Model):直接对条件概率p(y|x)进行建模,常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;生成式模型 (Generative Model):对联合分布概率p(x,y)进行建模,常见生成式模型有:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;判别式模型与生成式模型的对比:生成式模型更普适;判别式模型更直接,目标性更强生成式模型关注数据是如何产生的,寻找的是数据分布模型;判别式模型关注的数据的原创 2021-07-29 16:32:46 · 430 阅读 · 0 评论 -
k-means、DBSCAN、层次聚类等常用5中聚类方法
文章目录1 K-Means聚类2 均值漂移聚类3 具噪声基于密度的空间聚类算法4 高斯混合模型的期望最大化聚类5 凝聚层次聚类1 K-Means聚类基本K-Means算法的思想很简单,事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,直到质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的原创 2021-07-29 13:38:49 · 1896 阅读 · 1 评论 -
so easy??? SVM(推导)
SVM有三宝,间隔、对偶、核技巧之前仅仅只会其中的间隔,对对偶问题、核问题一直都以为好难好难的,过来好久好久(也就是最近)才深入到对偶、核技巧两块,发现好像也不是很难,之前是自己吓自己了以下是推导笔记,有兴趣深入的可以去看最下方的课程链接视频:https://www.bilibili.com/video/BV1Hs411w7ci?from=search&seid=15243873016871587941...原创 2021-06-21 09:27:03 · 96 阅读 · 0 评论 -
六大距离:欧式距离、街道距离、马氏距离等
文章目录1 简 介2 距离特征2.1 Euclidean距离2.2 Cosine距离2.3 manhattan距离2.4 chebyshev距离2.5 minkowski距离2.6 mahalanobis距离3 代 码实现1 简 介数值向量是数据建模问题中最为常见的一类特征,例如:在一些涉及图片,文本信息等的场景中,例如图片相似度匹配查询、相似文章寻找、同款商品定位等等问题中,为了能快速进行搜索匹配,我们往往会都会将图片文本等信息转化为数值向量;在搜索推荐等的多流程建模工作中,上游经常会将一些原创 2021-06-06 14:16:35 · 3966 阅读 · 1 评论 -
新一轮调参姿势——Optuna
1 简 介目前非常多的超参寻优算法都不可避免的有下面的一个或者多个问题:需要人为的定义搜索空间;没有剪枝操作,导致搜索耗时巨大;无法通过小的设置变化使其适用于大的和小的数据集;本文介绍的一种超参寻优策略则同时解决了上面三个问题,Optuna技术2 Optuna的3大优点01 Define-By-Run的APIOptuna将超参数优化描述为一个最小化/最大化目标函数的过程,该目标函数以一组超参数作为输入并返回其(验证)分数。该函数不依赖于外部定义的静态变量,动态构造神经网络结构的搜索空间(原创 2021-06-07 10:23:37 · 1000 阅读 · 0 评论 -
比赛中统计特征和比例特征为什么有效?
思考一个问题——比赛中统计特征和比例特征为什么有效?在比赛中通常使用统计特征和比例特征可以有效的提分!但是根据梯度提升树中数值变量的计算法则,有统计特征不就行了嘛,为什么还要有比例特征?我们知道在树中,对于数值变量的划分是先通过排序,然后选择最优划分的。对于统计特征和比例特征,由于比例特除以了一个自身长度,这可能导致统计特征和比例特征的排序不一样,从而导致切分也不一样。这就是使用了统计特征,还是使用比例特征的原因...原创 2021-06-07 10:22:43 · 209 阅读 · 1 评论 -
机器学习总结
Day01 特征距离Day02线性与逻辑回归Day03线性与逻辑回归Day04朴素贝叶斯Day05决策树Day06集成学习Day07随机森林Day09_XGBoostDay10KmeansDay11 SVM决策树参考:https://blog.csdn.net/jcjic/article/details/115528015...原创 2021-05-28 11:37:29 · 204 阅读 · 0 评论 -
样本噪声处理方案
样本噪声处理方案1. 基于模型的策略:2. 基于某些假设的策略:3.数据量与计算的平衡3.1.随机降采样:3.2.时间序列采样为什么进行样本筛选?数据粗存在噪声,会极大影响模型的训练效果(注意:数据噪声和样本不平衡是不同的)那么此类样本如何进行判断筛选呢?我们将其归纳为如下两类:基于模型的策略;基于某些假设的策略;1. 基于模型的策略:这些样本和之前的明显错误的或者异常的是不一样的,我们没法直接观测到,数据分析的手段也较难判断。那么这个时候该如何处理此类的样本呢?下面是一种我们在实践中使原创 2021-05-04 15:44:03 · 1920 阅读 · 2 评论 -
常用采样策略总结
常用采样策略1随机降采样2 Tomek Links采样3 基于聚类中心的采样4 时间序列采样5 分组采样6 分层采样7 简单过采样8 SMOTE过采样9 参考文献1随机降采样操作:直接随机sample,亦或是直接截取topN%的数据。注意:模型训练预测时,先做特征再采样再集成。适用场景:数据量是巨大时进行使用(几十亿)2 Tomek Links采样操作:python的imblearn中有TomekLinks采样。注意:无适用场景:模型训练:该方法一般个人很少在数据分析时使用,往往原创 2021-05-01 08:21:54 · 1604 阅读 · 1 评论 -
类别不平衡处理的三种基础处理方案
1 简介在某些时候,我们可能会遇到一些大问题,那就是正样本特别少,负样本特别多(样本不均衡)。在样本不均横的时候,其数据集在一定程度上会极大影响模型的训练。那么如何处理这类的问题呢?2 类别不平衡样本处理三招2.1 加权处理在绝大多数的模型中,模型可以使用类别权重,或则样本权重进行训练。加权的操作很简单,步骤如下:遍历每一个样本;如果样本满足某一个要求,就定义权重;(例如在不平衡的二分类中,如果样本的标签为1,那么我们将其权重设置为w1(自定义);如果样本标签为0;那么我们将其权原创 2021-04-30 19:39:48 · 1341 阅读 · 1 评论 -
时间序列:Prophet
之前我们已经讲过了如何在Windows系统下安装Python版本的Prophet。详细见这里。 接下来的几个部分,我们说下如何使用Prophet,以此来体验下Prophet的丰富内容。内容会比较多,主要翻译自官方文档。教程中使用的数据集可在 Prophet 的 github 主页 中的 examples 文件夹 内下载得到。 目录 一、简易入门 二、饱和预测 2.1...转载 2021-04-16 17:38:36 · 1335 阅读 · 0 评论 -
时间序列:ARIMA
时间序列ARIMA1 ARIMA模型1.1 ARIMA模型是什么:1.2 ARIMA模型建模流程2 ARIMA模型的应用2.1导入数据2.2画时序图2.3平稳性检验2.4差分法2.5白噪声检验2.6模型构建2.6.1 图检验(偏主观)2.6.2 相关评估指标检验:BIC和AIC法2.7 建模与预测1 ARIMA模型1.1 ARIMA模型是什么:全称差分自回归移动平均模型 (Autoregressive Integrated Moving Average Model)它其实可以拆分为:AR自回归模原创 2021-04-16 17:07:26 · 7210 阅读 · 0 评论 -
【LR与SVM -1】逻辑回归(logistics regression)
1、逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器2、 逻辑回归的原理2.1 输入逻辑回归的输入就是一个线性回归的结果。2.2 激活函数分析回归的结果输入到sigmoid函数当中输出结果:[0, 1]区间中的一个概率值,默认为0.5为阈值逻辑回归最终的分类是通过属于某个类别的概率值来判断是否属于某个类别,并且这个类别默认标记为1(正例),另原创 2021-01-28 15:20:40 · 168 阅读 · 0 评论 -
【LR与SVM -3】LR和SVM的对比
LR与SVM的相同点:1、LR和SVM都是常用的二分类算法(由监督学习,可扩展到多分类);2、如果不考虑核函数,LR和SVM都是线性分类算法。它们的分类决策面都是线性的(y=wTX+by=w^TX+by=wTX+b)。LR与SVM的不同点:1、本质上是loss函数不同,或者说分类的原理不同。(1)LR的目标是最小化模型分布和经验分布之间的交叉熵:LR基于概率理论中的极大似然估计。首先假设样本为0或者1的概率可以用sigmoid函数来表示,然后通过极大似然估计的方法估计出参数的值(梯度下降原创 2021-01-28 16:01:49 · 312 阅读 · 0 评论 -
【LR与SVM -2】SVM
1、SVM主要解决什么问题SVM的全称是Support Vector Machine,即支持向量机,主要用于解决模式识别领域中的数据分类问题,属于有监督学习算法的一种。SVM要解决的问题可以用一个经典的二分类问题加以描述。如上图所示,红色和蓝色的二维数据点显然是可以被一条直线分开的,在模式识别领域称为线性可分问题。然而将两类数据点分开的直线显然不止一条。图1(b)和©分别给出了A、B两种不同的分类方案,其中黑色实线为分界线,术语称为“决策面”。每个决策面对应了一个线性分类器。虽然在目前的数据上看原创 2021-01-22 18:07:59 · 960 阅读 · 0 评论 -
【学习笔记】K-means算法
1、 K-means原理我们先来看一下一个K-means的聚类效果图1.1 K-means聚类步骤随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程我们以一张图来解释效果2、K-meansAPIsklearn.cluster.KMeans(n_clusters=8,init原创 2021-01-31 09:45:23 · 187 阅读 · 0 评论 -
【学习笔记】K-近邻算法(KNN)
1、K-近邻算法(KNN)#1.1 定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法1.2 距离公式两个样本的距离可以通过如下公式计算,又叫欧式距离距离公式2、电影类型分析假设我们有现在几部电影其中? 号电影不知道类别,如何去预测?我们可以利用K近邻算法的思想2.1 问题如果取的最近的电影数量不一样?会是什么结果?2.2 K-近邻算法数据的特征工程原创 2021-01-30 09:04:02 · 188 阅读 · 0 评论 -
线性回归
文章目录1、 线性回归的原理1.1 线性回归应用场景1.2 什么是线性回归1.2.1定义与公式1.2.2 线性回归的特征与目标的关系分析2、线性回归的损失和优化原理2.1 损失函数2.2 优化算法2.3 优化动态图演示3、 线性回归API4、波士顿房价预测4.1 数据介绍4.2 分析4.2 回归性能评估4.3 代码实现5 总结1、 线性回归的原理1.1 线性回归应用场景房价预测销售额度预测金融:贷款额度预测、利用线性回归以及系数分析因子1.2 什么是线性回归1.2.1定义与公式线性回归(Li原创 2021-01-27 22:17:59 · 690 阅读 · 0 评论 -
大白话决策树分类
文章目录前言1 决策树的基本流程2 决策树的属性划分3 决策树的减枝处理4 决策树中的连续值和缺失值5 多变量的决策树6 sklearn中的决策树总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。1 决策树的基本流程2 决策树的属性划分信息增益、信息增益率、基尼系数3 决策树的减枝处理分为预减枝和后减枝4 决策树中的连续值和缺失值开始之前先思考一个为问题?当样本原创 2020-12-26 09:59:54 · 3068 阅读 · 0 评论 -
浅入决策树的分类和回归
浅入决策树分类和回归前言一 决策树机制—通过条件分支描述数据二 机器学习的决策树分类1. 决策树的二分类举例2. 决策树的多分类举例二、决策树回归总结前言在学习重要的基础算法的时候,我往往会偷懒忽视掉很多问题,就会陷入到,我觉得我会了,我知道是怎么个原理,就是一句代码拿来用就好,但真的要去讲解说明的时候,我却不知道从何说起,最后的conclusion就是实则我不是很清楚原理也讲不清原理。面对决策树,我问了自己三个问题:决策树和人构建的决策树是否一样?决策树如何做分类?决策树如何做回归?先看原创 2020-12-05 16:37:40 · 2468 阅读 · 2 评论 -
PCA
下面我不会直接描述PCA,而是通过逐步分析问题,让我们一起重新“发明”一遍PCA。写在前面的思路(总刚:行表示的是样本,列表示的是维度)1.向量A和B的内积表示的是向量A在B上的投影长度。那么将一个向量与新的基做内积,结果则表示该向量在新的基下的坐标。2.将新选定的基表示成矩阵形式,与原向量相乘,就得到了原向量在新选定的基所表示的空间(或坐标系)中的坐标表示了。3.怎样选定这组基用于数据降维?(目标)(1)首先将数据变换到选定基上后,数据的方差要大,尽量分散。(2)各个基要正交(表示的信息要不原创 2021-03-23 14:41:55 · 803 阅读 · 0 评论 -
机器学习下的朴素贝叶斯
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、朴素贝叶斯1.高斯朴素贝叶斯2.伯努利朴素贝叶斯3.多项式朴素贝叶斯总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。原创 2020-11-23 21:12:42 · 309 阅读 · 0 评论 -
随机森林与极端随机森林
原文:http://blog.csdn.net/zhaocj/article/details/51648966ET或Extra-Trees(Extremely randomized trees,极端随机树)是由PierreGeurts等人于2006年提出。该算法与随机森林算法十分相似,都是由许多决策树构成。但该算法与随机森林有两点主要的区别:1、随机森林应用的是Bagging模型,而ET是使用所有的训练样本得到每棵决策树,也就是每棵决策树应用的是相同的全部训练样本;2、随机森林是在一个随机子集内得到最转载 2021-04-26 19:56:58 · 4236 阅读 · 0 评论 -
集成学习
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤总结提示:这里对文章进行总结:例如原创 2021-01-01 21:35:59 · 523 阅读 · 0 评论 -
过采样:SMOTE算法
过采样的技术有非常多,最常见的就是随机过采样和SMOTE过采样。随机过采样就是从少的类中进行随机进行采样然后拼接上去,这种效果很多时候和加权差不大。还有一种较常见的也是现在比赛中出现最多的采样方法,SMOTE采样。SMOTE的示意图如下,SMOTE算法的生成过程为:对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。对于每原创 2021-04-10 19:50:25 · 31274 阅读 · 8 评论 -
量纲与无量纲,标准化、归一化、正则化
量纲、无量纲,标准化、归一化、正则化是我百度了很多次都不进脑子的知识,所以我决定还是放在博客上面。不过鉴于我查阅了很多资料,说是有许多的坑,所以我也不清楚我的理解和解释是否是坑,具体的就留给各位来帮忙评判了!1 量纲与无量纲1.1 量纲量纲我觉得最重要的一句话是:物理量的大小与单位有关。从这句话我们来思考下最核心的两个单词:大小、单位。就是说量纲是有两部分组成:数、单位。就比如1块钱和1分钱,就是两个不同的量纲,因为度量的单位不同了。1.2 无量纲结合上面的内容来说,那么无量纲就是:物理量.原创 2021-02-18 23:19:51 · 23649 阅读 · 2 评论 -
欠拟合和过拟合
1 本文主要解决两个问题在线性回归中过拟合和欠拟合的原因以及解决方法线性回归(不带正则化)的缺点2 对于第一个问题的解决:首先看过拟合和欠拟合的定义:过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)然后思考——是什么原因导致模型复杂?对于线原创 2021-01-27 23:13:07 · 113 阅读 · 0 评论 -
AUC代码实现
AUC是什么?代码这么实现?Probabilistic interpretation of AUCThe Probabilistic Interpretation of AUCAUC时ROC曲线下的面积。 ROC通过FP(假阳性)和TP(真阳性)计算。 对于二分类需要考虑混淆矩阵ROC(receiver operating characteristic curve) 通过 TPR 和 FPR得到通过FPR为横轴, TPR为纵轴,在不同分类置信度阈值下,可以绘制ROC曲线。如下图,ROC一定会经原创 2021-04-20 14:57:41 · 1689 阅读 · 1 评论