![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 84
guang_mang
故事的开头总是这样,适逢其会,猝不及防。故事的结局总是这样,花开两朵,天各一方
展开
-
关联分析Apriori算法(python)
小伙伴们,继续一起学习机器学习算法啦,今天学习关联分析、Apriori算法啦!大家肯定很熟悉一个故事-沃尔玛超市数据总结出的啤酒与尿布的相关性(知乎上也有牛人们在讨论这个故事的真假)图1来自《机器学习实战》这本书里提到的一个例子,展示了如下的一个购物清单: 图2 在上述购物交易单中发现,{尿布,葡萄酒}出现的次数较多,辣么,他们之间真的有木有关系呢?这就需要关联分析。关联分析:在大规模数据集中转载 2017-10-11 19:05:19 · 954 阅读 · 0 评论 -
CART分类回归树-(python3)
一、树回归1、简介假设X与Y分别是输入和输出向量,并且Y是连续变量,给定训练数据集考虑如何生成回归树。一个回归树对应着输入空间(即特征空间)的一个划分以及在划分的但单元上的输出值。假设已将输入空间划分为M个单元 ,并且在每个单元 上有一个固定的输出值 ,于是回归树模型可表示为(简单来说就是把数据集划分为多份数据,且每份数据集里面原创 2017-10-10 20:24:33 · 2479 阅读 · 2 评论 -
七种回归
目录(?)[+]介绍内容什么是回归分析我们为什么要用回归分析回归有哪些类型线性回归逻辑回归多项式回归逐步回归岭回归LASSO回归ElasticNet回归如何去选择回归模型参考介绍 根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。内容1.什么转载 2017-09-12 21:45:04 · 486 阅读 · 0 评论 -
KKT条件
KKT条件介绍 最近学习的时候用到了最优化理论,但是我没有多少这方面的理论基础。于是翻了很多大神的博客把容易理解的内容记载到这篇博客中。因此这是篇汇总博客,不算是全部原创,但是基础理论,应该也都差不多吧。因才疏学浅,有纰漏的地方恳请指出。 KKT条件是解决最优化问题的时用到的一种方法。我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值。提到K转载 2017-09-19 21:34:53 · 1249 阅读 · 0 评论 -
xgboost入门
xgboost入门与实战(原理篇)前言: xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid En转载 2017-09-26 19:01:49 · 573 阅读 · 0 评论 -
梯度提升树(GBDT)原理
在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT转载 2017-09-26 19:00:16 · 608 阅读 · 0 评论 -
集成学习之Adaboost算法原理小结
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中, Adaboost是最著名的算法之一。Adaboost既可以用作分类,也可以用作回归。本文就对Adaboost算法做一个总结。1. 回顾boosting算法的转载 2017-09-26 18:59:27 · 505 阅读 · 0 评论 -
集成学习原理
集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。1. 集成学习概述 从下图,我们可转载 2017-09-26 18:58:36 · 459 阅读 · 0 评论 -
PCA降纬(python)
PCA降纬pca降纬是一种无监督算法,是为了减少不必要的特征值,去除冗余或者对结果影响特别小的特征,产生较小误差主成分分析(PCA)是一种维数降低算法,可以显着加速无人监督的特征学习算法。更重要的是,这是许多算法的重要预处理步骤。假设您正在对图像进行训练。那么输入将是有点冗余的,因为图像中相邻像素的值是高度相关的。具体来说,假设我们正在对16x16灰度图像补丁进行培训。然后是256个维原创 2017-09-15 21:00:08 · 1527 阅读 · 0 评论 -
python pandas库具体用法
一 学习数据挖掘,如果是用Python的话,必须掌握好科学计算的相关库,我先学习了pandas的一些具体操作代码#-*- encoding:utf-8 -*-import numpy as npimport osimport pylab as plimport pandas as pdfrom pandas import Series,DataFrameimport matplotli原创 2017-04-20 12:32:02 · 628 阅读 · 0 评论 -
sklearn因子分析(python)
因子分析因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术,这里的共性因子指的是不同变量之间内在的隐藏因子。例如,一个学生的英语、数据、语文成绩都很好,那么潜在的共性因子可能是智力水平高。因此,因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。因子分析有两个核心问题:一是如何构造因子变量,二是如何对因子变量进行命名解释。因子分析有下面4个基原创 2017-12-07 21:43:51 · 34783 阅读 · 5 评论