数据挖掘
猪逻辑公园
数据分析 机器学习 NLP 风控 营销推荐
展开
-
数据挖掘标准流程CRISP-DM
1、首先说一下KDD模型的概念 知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。 这里不得不提一下数据挖掘的概念,数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是KDD中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机...转载 2020-08-25 10:57:28 · 1292 阅读 · 0 评论 -
基于RFM的航空公司客户价值分析模型
谈到用户分类模型,最被谈及的应该就是RFM模型了。大部分人常把RFM模型挂在嘴边,而在实际使用中的却很难真正的利用起来。这里暂时不去讨论RFM是好是坏。今天的介绍的是另外一个拓展的模型:航空公司客户价值分析模型LRFCM。RFM模型的复习在客户分类中,RFM模型是一个经典的分类模型,模型利用通用交易环节中最核心的三个维度——最近消费(Recency)、消费频率(Frequency)、消费金...原创 2020-03-03 18:38:51 · 4024 阅读 · 0 评论 -
度量学习中的马氏距离(Mahalanobis Distance)
对马氏距离的定义:马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为,协方差矩阵为Σ...转载 2019-11-25 18:53:08 · 3040 阅读 · 0 评论 -
Oracle数据库访问性能优化
目录一、百万级数据库优化方案二、oracle数据库两个基本概念三、数据库访问优化法则详解1、减少数据访问1.1、创建并使用正确的索引1.2、只通过索引访问数据1.3、优化SQL执行计划2、返回更少的数据2.1、数据分页处理2.2、只返回需要的字段3、减少交互次数3.1、batch DML3.2、In List3.3、设置Fetch Size...转载 2019-11-18 14:16:34 · 1735 阅读 · 0 评论 -
变量选择之VARCLUS
1 变量选择过程介绍对于数据挖掘来说,变量选择是一个很重要的过程,使用维归约来进行变量选择的好处是在能不降低预测能力的前提下,减少侯选变量的个数。本文将讲一下维归约的过程、维归约的方法以及实现这些方法的SAS过程步,主要包括VARCLUS,factor,princomp三个过程步,通过这三个过程步,我们可以将变量进行分组,然后通过选择组里几个重要的变量来代替整个组的变量,从而达到既减少侯...转载 2019-11-14 17:03:28 · 2332 阅读 · 0 评论 -
数据属性类型
数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、 数值属性(num...转载 2019-03-05 14:51:53 · 7427 阅读 · 0 评论 -
数据挖掘笔试题
https://blog.csdn.net/Hearthougan/article/details/82752233https://blog.csdn.net/yanjiangdi/article/details/79749629原创 2019-03-05 16:51:14 · 346 阅读 · 0 评论