机器学习
chenpe32cp
大道至简
展开
-
关于宏平均(Macro-averaging)和微平均(Micro-averaging)
本为转载与此今天在阅读周志华老师的《机器学习》一书时,看到性能度量这一小节,里面讲到了宏平均和微平均的计算方法,这也是我一直没有很清晰的一个概念,于是在看了之后又查阅了一些资料,但是还是存在一些问题,想和大家分享一下。(1)召回率、准确率、F值对于二分类问题,可将样例根据其真实类别和分类器预测类别划分为: 真正例(True Positive,TP):真实类别为正例,预测类别为正例...转载 2019-10-12 13:58:44 · 11066 阅读 · 0 评论 -
lightGBM使用案例
转载于文本xgboost:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/lightgbm的两种使用方式lightgbm#!/usr/bin/env python2# -*- coding: utf-8 -*-"""C...转载 2018-09-28 10:43:26 · 6996 阅读 · 1 评论 -
三种常用数据标准化方法
转载自:https://blog.csdn.net/bbbeoy/article/details/70185798评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。所谓多指标综合评价方法,就是把描述评价对象不同方面的...转载 2018-08-17 16:21:28 · 101111 阅读 · 1 评论 -
Stochastic Gradient Descent vs Batch Gradient Descent vs Mini-batch Gradient Descent
原文地址梯度下降是最小化风险函数/损失函数的一种经典常见的方法,下面总结下三种梯度下降算法异同。1、 批量梯度下降算法(Batch gradient descent)以线性回归为例,损失函数为BGD算法核心思想为每次迭代用所有的训练样本来更新Theta,这对于训练样本数m很大的情况是很耗时的。BGD算法表示为 或者表示为 其中X(m*n)为训练样本矩阵,α为学习速率,m为样本数,y(m*1)...转载 2018-04-28 09:28:29 · 164 阅读 · 0 评论 -
实现多类别分类的策略:one vs rest 和 one vs one
以SVM为例:参考https://zhidao.baidu.com/question/563178693205818084.htmlSVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类:一类是直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方...转载 2018-03-29 17:28:23 · 14714 阅读 · 1 评论 -
谈谈评价指标中的宏平均和微平均
转自本文今天在阅读周志华老师的《机器学习》一书时,看到性能度量这一小节,里面讲到了宏平均和微平均的计算方法,这也是我一直没有很清晰的一个概念,于是在看了之后又查阅了一些资料,但是还是存在一些问题,想和大家分享一下。(1)召回率、准确率、F值对于二分类问题,可将样例根据其真实类别和分类器预测类别划分为:真正例(True Positive,TP):真实类别为正例,预测类别为正例。假正例(False P...转载 2018-03-29 17:04:41 · 1348 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
本文原文地址:点击打开链接ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有...转载 2018-04-03 14:27:29 · 195 阅读 · 0 评论 -
常用的特征选择算法介绍
结合Scikit-learn介绍几种常用的特征选择方法原文 http://dataunion.org/14072.html主题 特征选择 scikit-learn特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减...转载 2018-03-21 19:44:07 · 25693 阅读 · 0 评论 -
特征哈希(Feature Hashing)
转载,原文地址请点击这里在特征处理(Feature Processing)中我介绍了利用笛卡尔乘积的方法来构造组合特征。这种方法虽然简单,但麻烦的是会使得特征数量爆炸式增长。比如一个可以取N个不同值的类别特征,与一个可以去M个不同值的类别特征做笛卡尔乘积,就能构造出N*M个组合特征。特征太多这个问题在具有个性化的问题里尤为突出。如果把用户id看成一个类别特征,那么它可以取的值的数量就等于用户数。把...转载 2018-03-30 10:02:00 · 8507 阅读 · 5 评论 -
特征处理(Feature Processing)
网上看到两篇好文章,转过来学习一下,查看原文请点击这里特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Feature Processing),是因为这里面要介绍的东西只是特征工程中的一小部分。这部分比较基础,...转载 2018-03-30 09:59:42 · 294 阅读 · 0 评论