![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 77
打牛地
这个作者很懒,什么都没留下…
展开
-
机器学习 评价指标-召回率(Recall) 精确率(Precision)准确率(Accuracy)ROC曲线和AUC值
召回率(Recall) 精确率(Precision)准确率(Accuracy)ROC曲线和AUC值 是机器学习中常用的评价指标,下面用具体的事例来一一介绍每个指标的具体含义。假设某个班级有男生80人,女生20人,共100人。目标是找出所有的女生现在有人挑选出了50个人,其中20个是女生,另外还错误的把30个男生也当作女生挑选了出来。下面根据一个图给大家说几个概念。TP(True Posi...原创 2018-10-07 16:31:09 · 2909 阅读 · 0 评论 -
随机森林算法梳理及相关参数介绍
集成学习的概念集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下,集成学习中的多个个体学习器都是同质的"弱学习器"。bagging和boostingbagging和boosting都属于集成学习算法。bagging,是一种非常简单而通用的机器学习集成学习算法。RF(随机森林)需要用到bagging,但是其...原创 2019-02-28 14:48:41 · 3534 阅读 · 0 评论 -
机器学习 逻辑回归原理详解
逻辑回归作为一个传统算法,可能从名字上来看,逻辑回归是一个回归算法,但是它却是一个分类算法,是最基础的分类算法,当我们做分类算法选择的时候,先用逻辑回归再用复杂的算法,能简单的先用简单的,逻辑回归的效果往往是最好的。sigmoid函数要学习逻辑回归,我们需要先认识一个函数,sigmoid函数,它的取值范围是0到1。逻辑回归之所以是一个分类算法,是因为它把结果值都映射到0到1的区间上,我们...原创 2018-11-25 16:13:42 · 379 阅读 · 0 评论 -
机器学习 特征选择(过滤法 封装法 嵌入法)
特征选择在机器学习工程中,特征工程才是最重要,特征决定着算法的上限,特征工程中最为重要和最为基础的两种技术,就是特征选择和特征降维。特征选择和特征降维的目的很简单,就是选择出或变换出更优的特征,从而更利于我们学习算法的学习。这特征选择的目的和特征降维的目的类似,但是特征选择和特征降维具有本质的区别,特征降维的主要特点是通过一个数学变换进行降维,而特征选择就是从众多特征中剔除不重要的特征,从而保...原创 2018-11-22 20:21:52 · 19509 阅读 · 1 评论 -
(Pearson)皮尔逊相关系数和spearman相关系数(附python实现)
今天在做数据分析的时候,发现了需要计算特征之间的相似度,从而在相似度比较高的特征之间保留一个就行。查了一下,发现可以通过皮尔逊相关系数和spearman相关系数来计算特征之间的相似度,下面将介绍这两个系数和区别。皮尔逊相关系数下面是皮尔逊相关系数的计算公式,只需要将(X和Y的协方差)/(X的标准差*Y的标准差)可以化简成spearman相关系数简单的相关系数的分类那么对于这两个系...原创 2018-11-11 19:08:22 · 19208 阅读 · 2 评论 -
missingno库---缺失值可视化分析
缺失值当我们拿到数据的时候,数据不一定是完整的,有时候一些特征有缺失值,我们可以通过可视化缺失值来决定我们下一步要进行的操作。missingno库missingno是一个可视化缺失值的库,方便使用,我们可以用pip install missingno 即可下载该库。例子import missingno as msnomsno.matrix(players.sample(500))#pl...原创 2018-11-06 19:48:42 · 5287 阅读 · 1 评论 -
数据特征 归一化/标准化 方法
https://blog.csdn.net/jacke121/article/details/79008333https://blog.csdn.net/zhaobinbin2015/article/details/81228027原创 2018-11-07 19:24:08 · 2051 阅读 · 0 评论 -
机器学习 Adaboost算法原理详解
Adaboost介绍Adaboost,是英文Adaptive Boosting(自适应增强)的缩写,它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器,同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代数。Adaboost步骤初始化训练数据的权值分布,如果有N个样本,每个训练样本最开始都被赋予相同...原创 2018-10-21 19:01:17 · 2730 阅读 · 0 评论 -
机器学习 线性回归原理详解
线性回归线性回归是机器学习最基础的,也是最经典的算法,下面就来介绍这个算法。假如我们要去银行贷款,那么银行会贷给我们多少钱,我们可以通过特征来计算出来。数据:工资和年龄(2个特征)目标:预测银行会贷款给我多少钱 (标签)考虑:工资和年龄都会影响银行贷款的结果,那么它们各自有多大的影响呢?(参数)工资年龄额度40002520000800030700...原创 2018-10-25 15:41:18 · 2225 阅读 · 0 评论 -
XGBoost 模型 参数解释
上篇博文介绍了xgboost这个算法的推导,下面我们在调包使用这个算法的时候,有一些参数是需要我们理解的。https://blog.csdn.net/weixin_43172660/article/details/83048394 这是上篇博文这里先讲怎么调用xgboost这个包进行运算首先先引入这个包和数据(包可以用pip install xgboost进行下载)import panda...原创 2018-10-16 21:11:19 · 11878 阅读 · 0 评论 -
机器学习 集成算法XGBoost原理及推导
XGBoosting介绍在上一篇构造决策树的博客中说到,XGBoost是一种通过集成的思想提高模型准确率的算法,这种算法是基于决策树模型的。不懂的可以看下面地址,包含了决策树的介绍和构造。https://blog.csdn.net/weixin_43172660/article/details/82995442下面通过一个具体的例子来说明XGBoost干了一件什么样的事情。如果要判断是否打...原创 2018-10-15 21:55:20 · 2423 阅读 · 1 评论 -
sklearn-GridSearchCV 网格搜索 调参数
Grid Search 网格搜索GridSearchCV:一种调参的方法,当你算法模型效果不是很好时,可以通过该方法来调整参数,通过循环遍历,尝试每一种参数组合,返回最好的得分值的参数组合比如支持向量机中的参数 C 和 gamma ,当我们不知道哪个参数效果更好时,可以通过该方法来选择参数,我们把C 和gamma 的选择范围定位[0.001,0.01,0.1,1,10,100]每个参数都能...原创 2018-10-12 20:00:09 · 7916 阅读 · 1 评论 -
机器学习 决策树的介绍和构造
决策树在如今机器学习领域,树可以说是最为重要的模型,在提高模型的准确率上有巨大威力的XGboost 都是基于树模型的,随机森林(包括多个决策树的分类器)也是基于树模型。树模型决策树,顾名思义就是和树一样,决策树从根结点开始一步步通过特征走到叶子节点所有的数据最终都会落到叶子节点上,即可以做分类也可以做回归下图就是一个简单的树模型,想要找到喜欢打游戏的人,通过对年龄和性别这两个特别,对...原创 2018-10-10 21:48:29 · 1349 阅读 · 3 评论 -
数据挖掘实战
导入数据,将 标签(Y)和样本(X) 分开来import pandas as pdX = pd.read_csv("data.csv")y = X["status"]X.drop(["status"],axis=1)X.head(5)将数据分成训练集和测试集from sklearn.model_selection impo原创 2020-10-22 18:18:31 · 231 阅读 · 0 评论