数据挖掘
AvenueCyy
这个作者很懒,什么都没留下…
展开
-
数据挖掘:模型选择——关联规则
关联规则介绍关联规则是一种从大型数据库中发现事物间相关性的方法。关联:当某件事物发生时,其他事物也会发生。关联分析:两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测,其目的是挖掘数据之间的相关性和规律性。比较常见的应用就是购物篮分析,分析用户购买产品的习惯,购买A产品后,购买B产品的概率。网上传的“啤酒和尿布”的故事,虽然是假的,但却是个比较好的例子,来说明事...原创 2020-04-21 20:24:22 · 4148 阅读 · 0 评论 -
数据挖掘:模型选择——K-means
K-means介绍K-means是一种无监督的聚类算法,根据各个样本数据间距离的大小,将样本分为K个簇。(也就是K个类别)分成K个簇后,想要达到的效果是每个簇内的点尽量相近,而簇与簇之间的距离尽量较大。算法流程如下图所示。随机选取K个样本作为最开始的质心。这样就出现了K个不同的簇。计算每个簇内的所有样本点的均值,将这个均值点作为新的质心。计算所有样本到这些质心的距离,选择其中离某个...原创 2020-04-08 11:05:41 · 1594 阅读 · 0 评论 -
数据挖掘:模型选择——KNN
KNN简介KNN是监督学习算法,其主要思想就是近朱者赤,近墨者黑。找出新样本与训练数据的最近的K个实例,哪个类别的个数多,就把该样本判定为哪一类。下面用这个图进行下说明。如果选择离新样本最近的3个实例,那么圆被判定为三角,如果选择5个实例,那么则被判定为方块。KNN工作原理工作原理如下:假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。输入没有标签...原创 2020-04-06 20:47:35 · 632 阅读 · 0 评论 -
数据挖掘:模型选择——SVM
本文主要参考B站UP主春暖花开Abela讲解的SVM,对SVM的学习进行的整理。另外也推荐B站的白板推导,对数学公式讲解的更为细致。最优化问题在一定条件下,解决求函数的最大/最小值的问题。拉格朗日乘子法拉格朗日乘子法计算模型如下。k为约束条件的个数,hk(x)为约束条件。相切的时候取极值,此时两个函数的梯度共线,所以两个函数分别求导后,应该是线性关系。将有约束的问题转为无约束的问题...原创 2020-04-05 13:55:54 · 830 阅读 · 1 评论 -
数据挖掘:特征提取——PCA与LDA
在数据维度很高时,我们会从中提取出一些有用的特征,降低数据处理的维度,方便计算,这个过程也被叫做降维。一般常用的降维方法有PCA和LDA。PCA:非监督降维,降维后数据的方差尽可能的大(方差大,含有的信息量就大)LDA:有监督降维,降维后,组内(同一类别)方差小,组间(不同类别之间)方差大主成分分析PCAPCA的直观理解PCA的一般用途:聚类:把复杂的多维数据转为少量数据,易...原创 2020-04-02 10:33:23 · 8125 阅读 · 1 评论 -
数据挖掘:模型选择——XGBoost与LightBGM
之前介绍了GBDT算法的一些知识,该算法的拟合能力很强,但由于是前向算法,所以运行起来会很慢,要等前面的结果出来后,才能拟合残差。陈天奇团队研究的XGBoost算法,可以解决这个问题,并且对GBDT有了很大的改进。XGBoost相比GBDT的改进第一,GBDT将目标函数泰勒展开到一阶,而xgboost将目标函数泰勒展开到了二阶。保留了更多有关目标函数的信息,对提升效果有帮助。第二,GBDT是...原创 2020-04-01 14:20:23 · 1603 阅读 · 2 评论 -
数据挖掘:模型选择——集成算法与树模型
之前介绍的树模型属于弱学习器,本身的算法比较简单,但是与集成算法合并后,会产生更好的效果。比如:决策树+bagging=随机森林;决策树+boosting=提升树这里先简单介绍下集成算法,然后对随机森林和提升树再做说明。集成算法集成算法:通过对多个模型进行组合来解决实际问题。多个模型集成成为的模型叫做集成评估器,组成集成评估器的每个模型都叫做基评估器。而这个“组合”的方式主要有以下两种...原创 2020-03-29 12:27:39 · 874 阅读 · 0 评论 -
数据挖掘:银行评分卡制作——数据分箱、WOE、IV的意义
在银行评分卡的项目中,通常都会需要把数据分箱,分箱后并不是对数据进行哑变量处理,而是用WOE值去替换,再放入模型中。学习的过程中会对这些操作有些疑问,比如,数据分箱有什么意义,WOE和IV值是干什么的?这里对这些数据处理的意义进行一个说明。数据分箱数据分箱是把连续型数据分为几组,或者把离散数据中类别较多的,进行重新划分,划分为类别数较少的特征。数据分箱的意义把离散特征的类别进行分箱二次...原创 2020-03-28 23:09:13 · 12377 阅读 · 0 评论 -
数据挖掘:模型选择——树模型
决策树先举个很直观的例子,有如下的一个数据表,根据其中的信息来判断是否去打球。要根据以往的信息,来判断新的信息属于哪种情况,然后得出结论。但是单纯地从这张表上看,感觉会特别繁琐。于是人们想到了用决策树来处理这种情况,if-then的结构人们也比较容易直观理解。...原创 2020-03-27 14:34:00 · 1619 阅读 · 0 评论 -
数据挖掘:模型选择——逻辑回归
逻辑回归之前介绍的线性回归主要用于回归预测,而逻辑回归主要用于分类任务。逻辑回归是在线性回归的基础上,加上了Sigmoid函数。线性回归的模型是:也可以写作:如果需要预测的值是0-1分布的,那么可以引入一个函数,将线性方程z变为g(z),让g(z)的值在(0,1)之间,当g(z)的值接近0时,样本的类别判为类别0;当g(z)的值接近1时,样本的类别判为类别1.这个函数即为Sigmoi...原创 2020-03-25 20:59:16 · 2010 阅读 · 1 评论 -
数据挖掘:模型选择——线性回归
线性回归一元线性回归最早接触的线性回归是y=ax+b的形式,这是对于一元线性回归来说。我们给入数据,通过最小二乘法,让真实值和预测值的残差平方和(也就是要优化的损失函数)最小。可对系数求一阶导数,让其为0,求得未知的a,b,得到方程。多元线性回归而一般情况下,我们遇到的数据不是只有一个维度,而是多维数据,这时要用到多元线性回归。建立数学模型之前,我们先定义如下变量。监督学习目标便是...原创 2020-03-24 18:32:03 · 2895 阅读 · 0 评论 -
数据挖掘:模型状态评估
数据挖掘:模型状态评估之前的模型评估仅仅是在评估模型的预测精度怎么样,没有考虑模型过拟合和欠拟合的状态。也就是说,模型拟合出来后,我们要对它进行优化,而如何优化就要看模型目前所处的一个状态,过拟合,欠拟合等。有针对的对模型进行优化。一、模型状态模型的状态可分为两类:过拟合:模型在训练集上的效果好,在测试集上的效果差。欠拟合:模型在训练集和测试集上的效果都不好。而这个效果就是模型评...原创 2020-02-29 15:13:05 · 1164 阅读 · 0 评论 -
数据挖掘:模型评估指标
数据挖掘:模型评估——回归问题一般在比赛中,我们会看到对于回归(分类)问题,不同的比赛会有不同的评价指标。我们在训练模型时,不能只记住回归问题用均方误差,而不去在意比赛目标的评价指标,这样我们往往会得到比较差的结果,南辕北辙。这里贴出网上写的比较好的模型评估的文章,由于本人的知识量有限,无法做出较好的总结,因此先参考别人的。等以后对这块更加熟悉后,再做补充。机器学习模型的评价指标和方法机器...原创 2020-02-29 10:16:51 · 7748 阅读 · 1 评论 -
数据挖掘:模型选择——监督学习(回归)
数据挖掘:模型选择——监督学习(回归)在上一篇文章数据挖掘:模型选择——监督学习(分类)中介绍了分类相关的算法原理,这次来介绍回归的一些算法。回归主要是预测连续型数据的目标值。本文来自:机器学习菜菜课堂一、线性回归简单介绍:简答的线性回归如y=ax+b,这是只有一个特征时的情况,而对于多个特征,就变成了多元线性回归。公式如下:这个θ为对应自变量的权重值,越大,证明该特征对结果的影响越...原创 2020-02-28 11:06:22 · 1468 阅读 · 1 评论 -
数据挖掘:模型选择——监督学习(分类)
数据挖掘:模型选择——监督学习(分类)机器学习算法可分为监督学习和非监督学习。本文主要讨论非监督学习中的分类任务。一、简单介绍简单的说,监督学习就是有标签的数据,有需要预测的变量。分类任务就是预测的变量数据为离散型。比如,将天气数据放入模型中,来预测明天是否下雨(下或不下,两种结果),为分类任务。预测降雨量具体是多少,为回归任务。而分类任务一般分为二分类和多分类。先介绍二分类。本文将对一...原创 2020-02-26 22:59:40 · 11422 阅读 · 1 评论 -
数据挖掘:特征工程——特征提取与选择
数据挖掘:特征工程——特征降维与选择特征的处理和构建已经在上一篇特征处理和构建文章中有所总结。接来下对特征降维和选择进行说明。一、什么是特征降维与特征选择?一般经过特征处理和生成后,会产生大量的特征,而这些特征中有的特征是很重要的,但不是每一项特征都对模型有用,因此,要将这类没用的特征剔除掉。所以,特征降维与特征选择的主要目的就是为了剔除无用的特征。之前一直有个疑惑,既然特征降维与特征选择...原创 2020-02-25 15:50:47 · 11831 阅读 · 0 评论 -
数据挖掘:特征工程——特征处理与特征生成
数据挖掘:特征工程——特征处理与特征构建这里贴一张网上特征工程的流程,供大家学习。一、什么是特征工程特征工程:其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。。就是获取更好的训练数据。主要有两个方面:获取更好的数据使机器学习算法达到最优二、特征工程处理的意义有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而...原创 2020-02-24 16:23:22 · 11275 阅读 · 0 评论 -
数据挖掘:探索性数据分析(EDA)(补充)
数据挖掘:探索性数据分析(EDA)(补充)在上一篇文章数据挖掘:探索性数据分析(EDA)中,已经讨论了一些探索性分析的方法,但去敏数据的处理方式和一些多元统计的方法没有做介绍。本篇文章主要讲这两方面。一、去敏数据的处理方式去敏数据已经在之前有过介绍了,指为了保护数据,消除特征的意义。而对这类数据就无法根据业务知识,进行特征的创建。另外,我们得到的数据一般是原始数据通过变换得到的,变换的方式有...原创 2020-02-23 11:43:02 · 1028 阅读 · 2 评论 -
数据挖掘:探索性数据分析(EDA)
数据挖掘:探索性数据分析原创 2020-02-21 15:48:22 · 13959 阅读 · 6 评论 -
数据挖掘:数据预处理相关概念
数据挖掘:数据预处理相关概念一、什么是数据预处理?一般我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。它是一系列对数据操作的统称。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为:数据清洗:可以用来清楚数据中的噪声,纠正不一致。数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。数据归约:可以通过如聚集...原创 2020-02-19 19:26:18 · 6627 阅读 · 2 评论 -
数据挖掘:数据清洗——数据噪声处理
数据挖掘:数据预处理——数据噪声处理一、什么是数据噪声?数据噪声(Noise):数据集中的干扰数据(对场景描述不准确的数据),即测量变量中的随机误差或方差。二、噪声数据与离群点的区别观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise):而离群点(Outlier)属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测...原创 2020-02-19 14:43:42 · 52035 阅读 · 4 评论 -
数据挖掘:数据清洗——数据不平衡处理
数据挖掘:数据预处理——数据不平衡处理一、什么是数据不平衡?不平衡数据集指的是数据集各个类别的样本数目相差巨大,也叫数据倾斜。以二分类问题为例,即正类的样本数量远大于负类的样本数量。严格地讲,任何数据集上都有数据不平衡现象,一点的差异不会引起太多的影响,我们只关注那些分布差别比较悬殊的。关于分布悬殊:如果类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因...原创 2020-02-18 18:42:01 · 9459 阅读 · 0 评论 -
数据挖掘:数据清洗——缺失值处理
数据挖掘:数据预处理——缺失值处理一、什么是缺失值缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。而在数据处理的过程中,缺失值不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。说明:None是一个python特殊的数据类型。不同于空列表和空字符串,是一种...原创 2020-02-17 16:15:02 · 17866 阅读 · 0 评论 -
数据挖掘:数据清洗——异常值处理
数据挖掘:数据清洗——异常值处理一、离群点是什么?离群点,是一个数据对象,它显著不同于其他数据对象,与其他数据分布有较为显著的不同。有时也称非离群点为“正常数据”,离群点为“异常数据”。离群点跟噪声数据不一样,噪声是被观测变量的随机误差或方差。一般而言,噪声在数据分析(包括离群点分析)中不是令人感兴趣的,需要在数据预处理中剔除的,减少对后续模型预估的影响,增加精度。离群点检测是有意义的,因为怀疑产生它们的分布不同于产生其他数据的分布。因此,在离群点检测时,重要的是搞清楚是哪种外力产生的离群点。原创 2020-02-16 19:46:45 · 10971 阅读 · 0 评论