数据挖掘
阴天了
哈哈哈哈哈
展开
-
【机器学习】特征选择(Feature Selection)方法汇总
传送门转载 2020-08-25 13:15:27 · 1534 阅读 · 0 评论 -
LightGBM代码实现
from __future__ import print_functionimport lightgbm as lgbimport sklearnimport numpyimport hyperoptfrom hyperopt import hp, fmin, tpe, STATUS_OK, Trialsimport coloramaimport numpy as npN_HYP...原创 2020-01-20 17:01:41 · 1119 阅读 · 0 评论 -
朴素贝叶斯理论+代码实现
朴素贝叶斯理论1、相关概念(生成模型、判别模型)1. 相关概念2、先验概率、条件概率3、贝叶斯决策理论3. 贝叶斯决策理论4、贝叶斯定理公式极大似然估计朴素贝叶斯分类器5、极值问题情况下的每个类的分类概率6、下溢问题如何解决7、零概率问题如何解决7. 零概率问题如何解决?8、sklearn参数详解8. sklearn参数详解9、优缺点1、相关概念(生成模型、判别模型) 编号 色泽...原创 2020-01-20 16:52:54 · 665 阅读 · 0 评论 -
几句话让你明白什么是Stacking模型
模型融合作为kaggle等比赛的提分方法,你不知道可就落伍了,对于网上的大部分讲解个人看法是把一个简单的问题说的复杂了,反而不好理解,所以本文将通过简短的几句话讲述一下Stacking原理,文章最后附上kaggle对Stacking的一个案例,这样你就会完全掌握了,好的,下面开始Staching原理这里假设你的训练集有10000条,测试集有2500条,并且基学习器有10个(这个是你自己设定的)...原创 2019-08-02 16:34:27 · 1442 阅读 · 0 评论 -
聚类算法--无监督学习
1、相关概念无监督学习:无监督学习是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。无监督学习的主要运用包含:聚类分析、关系规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。 一个常见的无监督学习是数据聚类。在人工神经网络中,生成对抗网络、自组织映射和适应性共振理论则是最常用的非监督式学习。聚类:聚类是一种无监督学习。聚类是把相似的对象通过静...原创 2020-01-18 21:02:05 · 3501 阅读 · 0 评论 -
逻辑回归
传送门转载 2019-08-02 11:10:05 · 614 阅读 · 0 评论 -
特征工程
本文中使用sklearn中的IRIS(鸢尾花)数据集来对特征处理功能进行说明。IRIS数据集由Fisher在1936年整理,包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。目标值为鸢尾花的分类(Iris Setosa(山鸢尾)、Iris Versico...转载 2020-01-11 16:21:12 · 224 阅读 · 0 评论 -
线性回归
线性回归模型的数学表达式如公示1所示:θ\thetaθ统称为模型的参数,其中θ0\theta_0θ0被称为截距(intercept),θ1\theta_1θ1~θn\theta_nθn被称为系数(coefficient),xix_{i}xi表示数据属性的第i个自变量。我们通过矩阵形式来表示这个方程,如公式2所示:这里xxx和θ\thetaθ都可以被看成一个矩阵,线性回归的任务就是通...原创 2020-02-01 14:26:07 · 149 阅读 · 0 评论 -
回归模型构建实战——赛题分析
本章节通过2019年未来杯高校AI挑战赛的竞赛进行完整的数据建模,其中包括了赛题分析、数据清洗、特种工程、模型选择、模型融合及结果整理6大过程。认识数据(赛题介绍)在构建模型前或者在数据分析前需要对数据有个清楚的认识,无论是对于数据竞赛还是企业项目,对于数据的认识往往是第一位的,这直接影响到最终的结果。本文是利用一个竞赛向大家进行介绍的,故根据比赛背景介绍如何对数据进行认识。了解比赛的背景、知...原创 2020-01-07 16:55:27 · 974 阅读 · 0 评论 -
数据挖掘流程记录
做一个数据挖掘竞赛,主要包括数据分析,数据清晰,特征工程,模型训练和模型验证五个模块。接下来一一介绍。1、数据分析数据分析可能设计以下几个方面分析特征变量的分布 1、特征变量为连续值:如果数据分布为长尾形状,并且考虑采用线性模型,可以对变量进行幂变换或者对数变换 2、特征变量为离散值:观察每个离散值的频率分布,对于频次较低的特征,可以统一编码为“其他”类别分析目标变量的分布目标变...原创 2019-04-23 17:47:56 · 593 阅读 · 0 评论