自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据挖掘工人

专注于数据分析及数据挖掘,电信银行互联网营销解决方案以及数据分析。喜欢分享学习数据分析、数据挖掘应用方案、CRM营销、SAS、SPSS、oracle相关知识

  • 博客(59)
  • 资源 (4)
  • 收藏
  • 关注

原创 PL/SQL Developer使用技巧总结

1、PL/SQL Developer记住登陆密码    在使用PL/SQL Developer时,为了工作方便希望PL/SQL Developer记住登录Oracle的用户名和密码; 设置方法:PL/SQL Developer 7.1.2  ->tools->Preferences->Oracle->Logon History , “Store history”是默

2014-09-29 17:43:48 1756

原创 数据挖掘领域十大经典算法初探

一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。

2014-09-25 17:38:47 926

原创 数据挖掘模型生命周期管理

为成功地利用预测模型,您需要从开发阶段直至生产环境对模型进行全面管理。模型生命周期管理是由以下阶段组成的高效交替过程:    • 确定业务目标    • 访问和管理数据    • 开发模型    • 验证模型    • 部署模型    • 监控模型确定业务目标第一步确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模

2014-09-25 17:32:12 5562

原创 数据挖掘领域十大经典算法初探

一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。

2014-09-25 17:18:58 1134 1

原创 数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)

在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对关联规则挖掘做一个小的总结。首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很

2014-09-25 17:13:29 5596

原创 数据挖掘的十种分析方法

1.记忆基础推理法(Memory-Based Reasoning;MBR)记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合

2014-09-25 17:10:57 2027

原创 客户细分总结

随着营销方式的多变、客户需求各异、营销增长受阻等多方面影响,企业的营销面临前所未有的挑战和机遇,精准化营销似乎已成为很多公司的选择,本文针对以下客户细分五大模块进行总结:一:客户细分的必要性:       顾客是天生就存在很大差异的,同质化的营销策略在不同的客户面前起到的作用是不同,如果企业想最大化的实现可持续发展和长期的增长,就需要专注正确的顾客群体,找准顾客的需求点,开展有

2014-09-25 17:08:38 11622

原创 《SAS编程与数据挖掘商业案例》学习笔记之八

十:file语句file中的option选项:Dlm=              指定列表输出文件的分隔符,默认是空格Dropover      规定当输出数据行长度超过指定值时,忽略超出部分Flowover    规定当输出数据行长度超过指定值时,超过部分在下一行输出Dsd   规定一个数据项可以包含分隔符,但是要用引号括住  默认分隔符是逗号En

2014-09-25 16:50:57 1706

原创 数据挖掘算法之决策树算法总结

机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过

2014-09-20 09:26:32 1965 1

原创 Logistic回归主要应用领域

主要应用领域1、预测是否发生、发生的概率(流失、客户响应等预测)   如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。2、影响因素、危险因素分析(找出影响结果的主要因素)     主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,也即影响因素分析。包括从多个可疑影响因素中筛选出具有显著影

2014-09-20 09:25:22 8739

原创 数据挖掘在金融行业十大应用

目前数据挖掘在各行各业应用广泛,尤其在金融、保险、电子商务和电信方面得到了很好的效果,本文对金融行业数据挖掘应用做了一个简单的总结,目的是想起到抛砖引玉的作用,欢迎各位大牛拍砖。一:风险控制(贷款偿还预测和客户信用评价)有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素和非相关因素。例如,与货款偿还风险相

2014-09-20 09:17:48 9579 2

原创 主成分分析和因子分析十大不同点

主成分分析和因子分析无论从算法上还是应用上都有着比较相似之处,本文结合以往资料以及自己的理解总结了以下十大不同之处,适合初学者学习之用。1.原理不同主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主

2014-09-20 09:09:04 6330 1

原创 数据挖掘在呼叫中心的六大应用点

当前商业正在从“以产品为中心”到“以用户为中心”转变,很多企业将CRM作为企业成功的一个关键因素,呼叫中心作为影响用户最直接的渠道,起着至关重要的作用;利用数据挖掘技术,可以提高企业呼叫中心的效率的同时来增加客户满意度,下面讨论下具体可以应用的方面。 1、根据客户的历史信息、呼叫信息、客户级别等信息,建立客户接入分类模型,对接入客户进行客户细分,针对不同的客户群采取不同的服务应答策

2014-09-30 15:23:14 1626 1

原创 Oracle小知识总结

1. 每天的8:00到23:00每隔5分钟执行一个sql语句的JOB--建立一个存储过程CREATE OR REPLACE PROCEDURE p_jobtest IS   v_hh VARCHAR2(2);BEGIN  v_hh := to_char(SYSDATE, 'hh24');  IF v_hh >= '08' AND v_hh '22' 

2014-09-30 15:22:20 1663

原创 oracle 性能优化--索引总结

索引是建立在表的一列或多个列上的辅助对象,目的是加快访问表中的数据;    Oracle存储索引的数据结构是B*树,位图索引也是如此,只不过是叶子节点不同B*数索引;    索引由根节点、分支节点和叶子节点组成,上级索引块包含下级索引块的索引数据,叶节点包含索引数据和确定行实际位置的rowid。使用索引的目的:加快查询速度减少I/O操作消除磁盘排序

2014-09-30 15:21:38 3989

原创 SQL优化总结

SQL 的优化主要涉及几个方面:(1)    相关的统计信息缺失或者不准确(2)    索引问题(3)    SQL 的本身的效率问题,比如使用绑定变量,批量DML 采用bulk等,这个就考验写SQL的基本功了,这一点也是最主要的一点。 一.SQL 编写注意事项 1.1 查看SQL对于生产环境上的SQL,可以从AWR 或者 Statspack

2014-09-30 15:20:51 1310

原创 oracle死锁解决常用方法(屡试不爽)

--1.查询被锁的情况select object_name,machine,s.sid,s.serial#from v$locked_object l,dba_objects o ,v$session swhere l.object_id = o.object_id and l.session_id=s.sid;--2.用下面语句kill掉死锁的进程al

2014-09-30 15:18:01 7147

原创 Oracle常用知识总结

1.曾经不小心把开发库的数据库表全部删除,当时吓的要死。结果找到下面的语句恢复到了1个小时之前的数据!很简单。注意使用管理员登录系统:select * from 表名 as of timestamp sysdate-1/12   //查询两个小时前的某表数据!既然两小时以前的数据都得到了,继续怎么做,知道了吧。。 如果drop了表,怎么办??见下面:drop

2014-09-29 17:44:31 1500 1

原创 分析函数在数据分析中的应用

我们来看看下面的几个典型例子:①查找上一年度各个销售区域排名前10的员工②按区域查找上一年度订单总额占区域订单总额20%以上的客户③查找上一年度销售最差的部门所在的区域④查找上一年度销售最好和最差的产品 我们看看上面的几个例子就可以感觉到这几个查询和我们日常遇到的查询有些不同,具体有: ①需要对同样的数据进行不同级别的聚合操作

2014-09-29 16:57:15 1558

原创 《SAS编程与数据挖掘商业案例》学习笔记之十七

继续读书笔记,本次重点sas sql语句,由于sql内容多且复杂,本文只介绍商业应用中常用的并且容易出错的地方,内容包括:单表操作、多表关联、子查询以及merge和join的区别1.单表操作eg1:Proc sql outobs=10; *可选项,功能类似于data步中的obs数据集选项   create table class asSelect

2014-09-29 16:20:59 1578

原创 《SAS编程与数据挖掘商业案例》学习笔记之十八

接着以前的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。一:数据挖掘综述衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法;

2014-09-29 16:20:40 2225

原创 《SAS编程与数据挖掘商业案例》学习笔记之十六

《SAS编程与数据挖掘商业案例》学习笔记,本次重点:sas宏变量内容包括:宏变量、宏函数、宏参数、通配函数、字符函数、计算函数、引用函数、宏语句、宏应用1.宏触发器:%name-token:是一个宏语句或宏函数&name-token:是一个宏变量引用宏变量不依赖于sas数据集,可以在任何一个除数据行以外的地方定义和引用宏变量,一般定义的宏变量为局部变量,除非

2014-09-29 16:20:10 2716

原创 《SAS编程与数据挖掘商业案例》学习笔记之十四

继续《SAS编程与数据挖掘商业案例》学习笔记系列,本次重点:常用全程语句所谓全程语句,是指可以用在任何地方的sas语句,既可以用在data数据步语句里面,也可以用在proc过程步里面,甚至可以单独使用,本次只针对商业应用中常用的语句进行总结:1.comments语句形式有两种:*comment 也可以用快捷方式:ctrl ?,取消comments可以

2014-09-29 16:18:52 1501

原创 《SAS编程与数据挖掘商业案例》学习笔记之十五

继续《SAS编程与数据挖掘商业案例》读书笔记,本次重点:输出控制主要内容包括:log窗口输出控制、output窗口输出控制、ods输出控制1.log窗口输出控制将日志输出到外部文件proc printto log= "f:\data_model\book_data\chapt9\newlog.txt"; new;proc print data=sashelp

2014-09-29 16:17:52 2026

转载 数学之美番外篇:平凡而又神奇的贝叶斯方法

概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记目录0. 前言 1. 历史

2014-09-28 15:23:10 949

转载 九月十月百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题

九月十月百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题引言    自发表上一篇文章至今(事实上,上篇文章更新了近3个月之久),blog已经停了3个多月,而在那之前,自开博以来的21个月每月都不曾断过。正如上一篇文章支持向量机通俗导论(理解SVM的三层境界)末尾所述:”额,blog许久未有更新了,因为最近实在忙,无暇顾及blog。“与此同时,工作之余,也一直在

2014-09-28 15:13:54 3104

转载 支持向量机通俗导论(理解SVM的三层境界)

支持向量机通俗导论(理解SVM的三层境界)作者:July ;致谢:pluskid、白石、JerryLead。出处:结构之法算法之道blog。前言    动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲

2014-09-28 15:13:16 1148

转载 教你如何迅速秒杀掉:99%的海量数据处理面试题

教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言   一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的

2014-09-28 15:12:07 1119

转载 从B 树、B+ 树、B* 树谈到R 树

作者:July、weedge、Frankie。编程艺术室出品。说明:本文从B树开始谈起,然后论述B+树、B*树,最后谈到R 树。其中B树、B+树及B*树部分由weedge完成,R 树部分由Frankie完成,全文最终由July统稿修订完成。出处:http://blog.csdn.net/v_JULY_v 。 第一节、B树、B+树、B*树1.前言:动态查找树主要有:二叉查找树

2014-09-28 15:10:29 661

原创 数据挖掘技术在信用卡业务中的应用及实例分析

信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据,数据挖掘在信用卡业务中的重要性日益显现。 一、数据挖掘技术在信用卡业务中的应用 数据挖掘技术在信用卡业务中

2014-09-28 10:36:19 6232

原创 《SAS编程与数据挖掘商业案例》学习笔记之十二

本次重点在:sas数据集管理   主要包括:包括数据集纵向拼接、转置、排序、比较、复制、重命名、删除等1.append语句注:base数据集和data两个数据集必须结构一样,避免使用force的情况,重复append的会造成重复。一个避免重复的商业化应用:%macro dl;%if %sysfunc(exist(null)) ne 0 %then %

2014-09-28 09:44:03 1408

原创 《SAS编程与数据挖掘商业案例》学习笔记之十三

本次重点:data步循环与控制涉及:if/then/else语句,select语句,do语句,continue语句,leave语句1.if then else 语句高效率的if应用:1)If  x=1 then y=1;Else if x=2  then y=2;Else y=3;对于每一个数据集的观测,if-then-else只会判

2014-09-28 09:43:49 1274

原创 《SAS编程与数据挖掘商业案例》学习笔记之十一

继续读书笔记,本文重点侧重sas观测值的操作方面, 主要包括:输出观测值、更新观测值、删除观测值、停止输出观测值等1.output语句   输出当前在pdv中的观测值,继续无条件执行下面的语句。注意:简单的data步不需要output语句,run语句会自动输出pdv中的数据到数据集,并返回data步开头继续执行下一条观测。在有output语句和run语句同时存在时,pdv只

2014-09-28 09:42:45 1336 1

原创 一些常用的SAS命令

一些常用的SAS命令1. 转换文本数据文件的数据步的一般形式为:data 数据集名;infile 文件名; input 变量输入设定; run;2. 指定逻辑文件名语句的一般形式为:filename 逻辑文件名 ‘文件位置’;3. 查看SAS逻辑库的属性和内容的一般写法为:proc datasets lib=逻辑库名;run;4. 查看SAS数据集的属性的一般写法为:p

2014-09-28 09:41:17 9843

原创 sas数据导入终极汇总-之一

将数据文件读入SAS ——DATA Step / PROC IMPORT   1.将SAS文件读入SAS——   data sasuser.saslin;     set "F:\sas1.sas7bdat";   run;   proc contents data=sasuser.saslin;   run;   2

2014-09-28 09:39:00 17717

原创 sas数据导入终极汇总-之二

从FTP读入数据read raw data via FTP in SAS?SAS has the ability to read raw data directly from FTP servers. Normally, you would use FTP to download the data to your local computer and then use SAS to

2014-09-27 21:12:39 2740

原创 linux awk命令总结

1.  除去重复项, 这个不多说, 只给出代码:awk '!a[$0] ' file(s)                 awk '!($0 in a){a[$0];print}' file(s)  另一种:http://bbs.chinaunix.net/thread-1859344-1-1.html2. 计算总数(sum),如:awk  '{name[$0] =$

2014-09-27 21:11:50 966

原创 inputn函数与input函数的区别

inputn函数与input函数的区别(这里的比较类似于前面的inputc函数)①input函数可以将字符型变量转换为字符型或数值型,这取决于指定的输入格式informat;而inputn函数只能将字符型变量转换为数值型。从这个角度上看,跟inputc函数一样,可以将inputn函数的功能理解为input函数功能的子集。②inputn函数可以动态的指定输入格式,而input函数则不可以。上

2014-09-27 21:10:17 3822

原创 sas常用选项

System options:obs:表示需要处理的最后一行observation,如果指定其为max,就表示处理到最后一条observationfirstobs:表示需要从第几行observation开始处理,默认是1observationmsglevel:默认值是N,仅打印notes,warnings和error信息,如果设为I,则除了打印N选项的信息,同时打印附属

2014-09-27 21:09:56 3972

原创 浅谈协同过滤推荐算法

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电

2014-09-27 21:05:46 2558

sas_enterprise_guide.pdf

sas_enterprise_guide.pdf

2014-09-28

SAS操作入门-吴有炜

SAS操作入门-吴有炜 经典资料 入门之选

2014-09-28

DeepLearning-NowPublishing-Vol7-SIG-039.pdf

机器学习非常好的资料 DeepLearning-NowPublishing-Vol7-SIG-039.pdf

2014-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除