Data Mining
文章平均质量分 79
数据挖掘工人
专注于数据分析以及数据挖掘,电信银行互联网营销解决方案。喜欢分享学习数据挖掘、数据分析、PPT、BI、SAS、SPSS、Python、oracle相关知识。更多信息请关注本人新浪微博:@数据挖掘工人
展开
-
Logistic回归主要应用领域
主要应用领域1、预测是否发生、发生的概率(流失、客户响应等预测) 如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。2、影响因素、危险因素分析(找出影响结果的主要因素) 主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,也即影响因素分析。包括从多个可疑影响因素中筛选出具有显著影原创 2014-09-20 09:25:22 · 8772 阅读 · 0 评论 -
数据挖掘技术在信用卡业务中的应用及实例分析
信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据,数据挖掘在信用卡业务中的重要性日益显现。 一、数据挖掘技术在信用卡业务中的应用 数据挖掘技术在信用卡业务中原创 2014-09-25 17:52:26 · 3221 阅读 · 0 评论 -
网站分析常用方法
本篇文章我们介绍4种网站分析中最常用,也是最有效的分析方法。他们分别是细分分析,对比分析,对比分析,质与量分析。这些分析方法在实际工作中经常组合使用。我们先来看下细分分析。1, 细分分析 单一的指标数据或大维度下的指标数据是没有意义的,只有当指标与维度配合使用时才有意义。细分也叫下钻,是网站分析中最常用的一种方法。原理就是通过对汇总数据进行多个维度对指标进行分解。逐步找到有原创 2014-09-25 17:54:38 · 1576 阅读 · 0 评论 -
数据挖掘编程语言选择(Python与R的PK)
数据挖掘技术日趋成熟和复杂,随着互联网发展以及大批海量数据的到来,之前传统的依靠spss、SAS等可视化工具实现数据挖掘建模已经越来越不能满足日常需求,依据美国对数据科学家(data scientist)的要求,想成为一名真正的数据科学家,编程实现算法以及编程实现建模已经是必要条件;目前很多从事数据挖掘工作的人,大多都是出身非计算机专业,本身对编程基础比较低,所以找到一门快速上手而又高效的编程语言原创 2014-09-25 17:54:18 · 4551 阅读 · 1 评论 -
评分卡模型剖析之一(woe、IV、ROC、信息熵)
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidenc原创 2014-09-26 16:48:53 · 36678 阅读 · 5 评论 -
数据挖掘技术在信用卡业务中的应用及实例分析
信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据,数据挖掘在信用卡业务中的重要性日益显现。 一、数据挖掘技术在信用卡业务中的应用 数据挖掘技术在信用卡业务中原创 2014-09-28 10:36:19 · 6259 阅读 · 0 评论 -
学习总结之数据挖掘三大类六分项
Data Mining可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。 Classification是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如将原创 2014-10-08 15:19:23 · 2355 阅读 · 0 评论 -
数据分析在零售业八大应用点总结
1、销售指标分析: 主要分析各项销售指标,例如毛利、毛利率、坪效、交叉比、销进比、盈利能力、周转率、同比、环比等等;而分析维又可从管理架构、类别品牌、日期、时段等角度观察,这些分析维又采用多级钻取,从而获得相当透彻的分析思路;同时根据海量数据产生预测信息、报警信息等分析数据;还可根据各种销售指标产生新的透视表,例如最常见的ABC分类表、商品敏感分类表、商品盈利分类表等。这些复杂的指原创 2014-10-08 15:22:54 · 6016 阅读 · 0 评论 -
数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很原创 2014-10-08 15:22:06 · 6052 阅读 · 0 评论 -
协同过滤
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电原创 2014-10-08 15:48:22 · 1179 阅读 · 0 评论 -
数据挖掘领域十大经典算法初探
一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。原创 2014-09-25 17:40:47 · 671 阅读 · 0 评论 -
数据挖掘领域十大经典算法初探
一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。原创 2014-09-25 17:38:47 · 936 阅读 · 0 评论 -
数据挖掘的十种分析方法
1.记忆基础推理法(Memory-Based Reasoning;MBR)记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合原创 2014-09-20 09:28:00 · 1042 阅读 · 0 评论 -
数据挖掘的十种分析方法
1.记忆基础推理法(Memory-Based Reasoning;MBR)记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合原创 2014-09-25 17:10:57 · 2046 阅读 · 0 评论 -
客户细分总结
随着营销方式的多变、客户需求各异、营销增长受阻等多方面影响,企业的营销面临前所未有的挑战和机遇,精准化营销似乎已成为很多公司的选择,本文针对以下客户细分五大模块进行总结:一:客户细分的必要性: 顾客是天生就存在很大差异的,同质化的营销策略在不同的客户面前起到的作用是不同,如果企业想最大化的实现可持续发展和长期的增长,就需要专注正确的顾客群体,找准顾客的需求点,开展有原创 2014-09-25 17:08:38 · 11680 阅读 · 0 评论 -
数据挖掘算法之决策树算法总结
机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过原创 2014-09-20 09:26:32 · 1983 阅读 · 1 评论 -
数据挖掘模型生命周期管理
为成功地利用预测模型,您需要从开发阶段直至生产环境对模型进行全面管理。模型生命周期管理是由以下阶段组成的高效交替过程: • 确定业务目标 • 访问和管理数据 • 开发模型 • 验证模型 • 部署模型 • 监控模型确定业务目标第一步确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模原创 2014-09-25 17:32:12 · 5590 阅读 · 0 评论 -
数据挖掘领域十大经典算法初探
一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。原创 2014-09-25 17:18:58 · 1141 阅读 · 1 评论 -
数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)
在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很原创 2014-09-25 17:13:29 · 5616 阅读 · 0 评论 -
数据挖掘在金融行业十大应用
目前数据挖掘在各行各业应用广泛,尤其在金融、保险、电子商务和电信方面得到了很好的效果,本文对金融行业数据挖掘应用做了一个简单的总结,目的是想起到抛砖引玉的作用,欢迎各位大牛拍砖。一:风险控制(贷款偿还预测和客户信用评价)有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素和非相关因素。例如,与货款偿还风险相原创 2014-09-20 09:17:48 · 9619 阅读 · 2 评论 -
主成分分析和因子分析十大不同点
主成分分析和因子分析无论从算法上还是应用上都有着比较相似之处,本文结合以往资料以及自己的理解总结了以下十大不同之处,适合初学者学习之用。1.原理不同主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主原创 2014-09-20 09:09:04 · 6352 阅读 · 1 评论 -
数据挖掘在呼叫中心的六大应用点
当前商业正在从“以产品为中心”到“以用户为中心”转变,很多企业将CRM作为企业成功的一个关键因素,呼叫中心作为影响用户最直接的渠道,起着至关重要的作用;利用数据挖掘技术,可以提高企业呼叫中心的效率的同时来增加客户满意度,下面讨论下具体可以应用的方面。 1、根据客户的历史信息、呼叫信息、客户级别等信息,建立客户接入分类模型,对接入客户进行客户细分,针对不同的客户群采取不同的服务应答策原创 2014-09-30 15:23:14 · 1638 阅读 · 1 评论