机器学习
文章平均质量分 62
**码上人生**
在数据、代码中寻找诗和远方......
展开
-
WOE信用评分卡--R语言实现
---title: "信用评分模型"author:"junjun"date: "2016年10月3日"output:html_document--- # 一、数据的获取与整合 数据来源:数据来自Kaggle,cs-training.csv是有15万条的样本数据,下图可以看到这份数据的大致情况。下载地址为:https://www.kaggle.com/c/G原创 2017-03-28 10:44:44 · 11992 阅读 · 0 评论 -
大数据项目1:客户回复预测与效益最大化
大数据项目1junjun2016年2月14日RMarkdown文档及数据集:http://pan.baidu.com/s/1dDRIONn参考书籍:R语言与数据挖掘最佳实践和经典案例_(澳)客户回复预测与效益最大化1、数据简介KDD Cup 1998年竞赛的目标是估计一个直邮的回复量,以便获得最多的捐款。数据集的格原创 2016-02-14 17:46:33 · 4270 阅读 · 0 评论 -
7.1、KNN实例
Loading [MathJax]/jax/output/HTML-CSS/jax.jsKNN实例junjun2016年2月10日实例一、K近邻算法R语言实践,使用class包中的三个函数knn()、knn1()、knn.cv()分别做K近邻分类,并比较结果#1、加载数据data("iris")#2、创建训练集和测试集数据library(原创 2016-02-10 17:10:09 · 3836 阅读 · 0 评论 -
13.1、时间序列实例
时间序列实例junjun2016年2月12日Rmarkdown脚本及数据集:http://pan.baidu.com/s/1gekA3AV实例一、使用ARIMA模型对裙子长度预测ARIMA 模型为平稳时间序列定义的。 因此, 如果你从一个非平稳的时间序列开始, 首先你就需要做时间序列差分直到你得到一个平稳时间序列。如果你必须对时间序列做 d 阶差分才能得到一原创 2016-02-12 12:07:59 · 15195 阅读 · 4 评论 -
用户画像数据建模方法
作者:百分点技术总监郭志金从1991年TimBerners-Lee发明了万维网(WorldWideWeb)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线转载 2016-02-14 10:00:17 · 3098 阅读 · 0 评论 -
重点:用户画像
一、用户画像参考:http://www.36dsj.com/archives/160901、为什么要做用户画像?一方面是海量信息的汇集,例如京东是一家大型全品类综合电商,海量商品和消费者产生了从网站前端浏览、搜索、评价、交易到网站后端支付、收货、客服等多维度全覆盖的数据体系,另一方面日益复杂的业务场景和逻辑使得信息的处理挖掘日益重要;也就是说,京东已经形成一个储量丰富、品位上乘且增量巨原创 2016-02-13 10:38:42 · 6578 阅读 · 0 评论 -
13、时间序列
1、时间序列的分类时间序列分为:非季节性数据和季节性数据一个非季节性时间序列包含一个趋势部分和一个不规则部分。一个季节性时间序列包含一个趋势部分,一个季节性部分和一个不规则部分。在实践操作中,时间序列数据存在着前后关系。例如,今天股票的价格很有可能决定明天股票的价格。明天的温度取决于今天的气温。做天气预报的具体操作方法,是使用已经存在的天气历史记录,比如说今天的气温,昨天的气温,前原创 2016-02-12 10:56:50 · 4225 阅读 · 0 评论 -
12.1、PageRank实例
实例一:PageRank在R中的应用1、加载R包:> library(igraph)> library(dplyr) 2、随机生成具有10个对象的有向图:> g igraph包中的random.graph.game()函数或者erdos.renyi.game(n, p.or.m,directed)函数:根据Erdos-Renyi模型生成随机图形。n为图中的顶点数;p.o原创 2016-02-12 09:54:40 · 2909 阅读 · 0 评论 -
12、pageRank
pageRank1、PageRank算法原理PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。1)、对于某个互联网网页A来说,该网页PageRank的计算基于以下两原创 2016-02-12 09:51:45 · 1233 阅读 · 0 评论 -
11.2、关联规则实例
实例三、下面的实例部分使用的数据为rattle包中,csv目录下的dvdtrans.csv文件,该数据显示了DVD购买的记录。1、加载数据和包:>library(rattle)> library(arules)> dvd F:\\R\\R-3.2.2\\library\\rattle\\csv/dvdtrans.csv", header=T) 在安装包的目录下> clas原创 2016-02-11 17:29:04 · 4868 阅读 · 1 评论 -
11.1、关联规则实例
关联规则junjun2016年2月11日实例一:通过arules包中的Aprior()函数求关联规则、eclat()函数求频繁项集#1、加载数据并查看library(arules)## Loading required package: Matrix## ## Attaching package: 'arules'## The following原创 2016-02-11 17:27:44 · 3691 阅读 · 0 评论 -
11.、关联规则算法
关联规则算法关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basketanalysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。关联规则的应用场合。在商业销售上,关联规则可用于交叉销售,以得到更大的收入;在保险业务方面,如果出现了不常见的索赔要求组合,则可原创 2016-02-11 17:26:48 · 707 阅读 · 0 评论 -
10.1、协同过滤实例
协同过滤实例junjun2016年2月11日recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架。它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法 recommender包的数据类型采用S4类构造,使用抽象的raringMatrix为评分数据提供接口。raringMatrix采用了很多类似矩阵对象的操作,如dim(),原创 2016-02-11 16:37:13 · 2988 阅读 · 0 评论 -
10、协同过滤
协同过滤1 、协同过滤概念协同过滤 (Collaborative Filtering, 简称 CF):是利用集体智慧的一个典型方法。在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。换句话说,就是借鉴和你相关人群的观点来进行推荐。 协同过滤的基本思想是如果用户在过去有相同的偏好,那么在未来也会有相似的偏好,所以可以利用已知的用户过去的行为或评分对当前用户原创 2016-02-11 14:14:50 · 1299 阅读 · 1 评论 -
4、ensemble组合方法
ensemble组合方法1、ensemble概念通过聚合多个分类器的预测来提高分类的准确率,这种技术称为组合方法(ensemble method) 。组合方法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行权重控制来进行分类。Ensemble技术在数据挖掘的三个方向:1.在样本上做文章,基分类器为同一个分类算法,主要的技术有bagging,boosting;2.在分原创 2016-02-11 16:05:10 · 4071 阅读 · 0 评论 -
大数据项目2:内存受限的大数据预测模型
内存受限的大数据预测模型junjun2016年2月15日Rmarkdown脚本及数据集:http://pan.baidu.com/s/1bogaFrp一、项目简介:回归树用于分类预测1、项目集数据介绍使用randomForest包和party包来创建随机森林的区别:randomForest包无法处理包含缺失原创 2016-02-16 11:56:57 · 3639 阅读 · 2 评论 -
大数据项目3:自动创建N棵决策树脚本
ctreeN <- function(n) { #1.读取数据 cup98 <- read.csv(“F:\R\Rworkspace\cup98lrn/cup98lrn.txt”) #2.设置训练集和测试集比例 LoopNum <- n trainPercentage <- 30 testPercentage <- 20 restPercentage <-原创 2016-02-16 12:04:59 · 860 阅读 · 1 评论 -
WOE信用评分卡--R语言实例
目录(?)[-]信用卡评分一数据准备二数据处理三变量分析四切分数据集五Logistic回归六WOE转换七评分卡的创建和实施转载自:http://blog.csdn.net/csqazwsxedc/article/details/51225156信用卡评分2016年1月10日一、数据准备1、 问题的准备• 目标:要完成一个转载 2017-03-28 10:41:34 · 23238 阅读 · 1 评论 -
WOE评分卡--IV
目录(?)[-]IV的用途对IV的直观理解IV的计算1WOE2 IV的计算公式3 用实例介绍IV的计算和使用31 实例32 计算WOE和IV33 IV值的比较和变量预测能力的排序关于IV和WOE的进一步思考1 为什么用IV而不是直接用WOE2 IV的极端情况以及处理方式转载自:http://blog.csdn.net/ke转载 2017-03-28 10:38:13 · 7167 阅读 · 0 评论 -
WOE评分卡--WOE理论
1、评分卡概述最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式.由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自变量进行再次的处理。比较常规的做法转载 2017-03-28 10:33:53 · 26454 阅读 · 4 评论 -
GBRT/GBDT算法实例
GBRT/GBDTjunjun2016年10月4日GBM实例1:#1、构造数据集# A least squares regression example # create some data N1000X1runif(N)X22*runif(N)X3ordered(sample(letters[1:4],N,replace=TRUE),levels=原创 2016-10-04 12:55:52 · 7738 阅读 · 0 评论 -
GBDT、GBRT
GBDT(Gradient Boost Decision Tree)原文:http://blog.csdn.net/aspirinvagrant/article/details/48415435GBDT,全称Gradient Boosting Decision Tree,叫法比较多,如Treelink、 GBRT(Gradient Boost Regression Tree转载 2016-10-04 12:50:22 · 12828 阅读 · 1 评论 -
机器学习进阶路上不可错过的 28 个视频
想自学机器学习和深度学习?不妨边看专家讲解视频边自学。不仅能感受世界各地专家的熏陶,也能快速获取知识,一举两得。这篇文章整理了一个 YouTube 视频列表,供希望在该领域学习的朋友使用。 视频观看建议 我将视频分为三类:机器学习、神经网络、深度学习。为方便起见,你可以使用我创建的列表按顺序学习。特别推荐初学者根据顺序学习,以更好地理解视频。 这套参考视频集需要时间消转载 2016-08-12 17:34:53 · 2013 阅读 · 0 评论 -
欧氏距离和余弦相似度
欧氏距离和余弦相似度前者是看成坐标系中两个 点 ,来计算两点之间的 距离 ;后者是看成坐标系中两个 向量 ,来计算两向量之间的 夹角 。前者因为是 点 ,所以一般指 位置 上的差别,即 距离 ;后者因为是 向量 ,所以一般指 方向 上的差别,即所成 夹角 。本质是一样,但没有归一化的情况下,余弦距离是计算相似程度,而欧氏距离计算的是相同程度。欧氏距离和余弦相似度的区原创 2016-03-14 09:04:21 · 2585 阅读 · 0 评论 -
数据挖掘总结之分类与聚类的区别
分类与聚类的区别Classification (分类):一个 classifier会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习)。所谓分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。 常用的分类算法包括:决策树分类法,朴素的贝叶斯分类算法(native Bayesian clas原创 2016-02-04 16:40:56 · 4619 阅读 · 0 评论 -
数据挖掘总结之有监督学习与无监督学习的区别
有监督学习与无监督学习的区别在机器学习(Machine learning)领域,主要有三类不同的学习方法:构造预测模型的有监督学习(supervised learning);构造描述性模型的无监督学习(un supervised learning)(其实,还有半监督学习)监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。就是每次迭代开始前都有原创 2016-02-04 16:38:26 · 8969 阅读 · 0 评论 -
数据挖掘总结之数据挖掘与机器学习的区别
数据挖掘与机器学习的区别与机器学习经常一起出现的就是数据挖掘,两种经常会有重叠的地方, ① 数据挖掘某种意义上更多的是关注从大量的数据中获得新的见解; ② 机器学习聚焦于进行已知的任务,而数据挖掘则是搜寻隐藏的信息。 例如电商利用机器学习来决定向谁推荐什么产品,数据挖掘用来了解什么样的人喜欢什么产品。机器学习和数据挖掘不严格区分。 数据挖掘和机器学习的区别和联系,数据挖掘受到很多学科原创 2016-02-04 16:34:43 · 2956 阅读 · 0 评论 -
数据挖掘总结之消极学习与积极学习
消极学习与积极学习1. 积极学习(Eager Learning)这种学习方式是指在进行某种判断(例如,确定一个点的分类或者回归中确定某个点对应的函数值)之前,先利用训练数据进行训练得到一个目标函数,待需要时就只利用训练好的函数进行决策,显然这是一种一劳永逸的方法,SVM就属于这种学习方式。2. 消极学习(Lazy Learning)这种学习方式指不是根据样本建立一般化的目标函数并确定其参数,而是简单原创 2016-02-04 16:48:52 · 6294 阅读 · 0 评论 -
数据挖掘总结之多重共线性与过拟合
多重共线性:一个变量可以由其他变量求出,例如,学生的总成绩可以由各科成绩求出。 ① 度量多重共线性严重程度的一个重要指标是矩阵的条件数,可以由函数kappa()求出。在R中,函数kappa()计算矩阵的条件数。 注意:一般条件数K<100,则认为多重共线性的程度很小;若100<=K<=1000则认为存在中等程度或较强的多重共线性;若K>1000则认为存在严重的多重共线性。 ②相关性的检验:原创 2016-02-04 16:46:57 · 9599 阅读 · 0 评论 -
数据挖掘总结之主成分分析与因子分析
主成分分析与因子分析1)概念:主成分分析概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。 PCA的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。因子分析概念:探索性因子分析(EFA原创 2016-02-04 16:43:03 · 7191 阅读 · 0 评论 -
项目1:logit,GBM,knn,xgboost准确率测试
logit,GBM,knn,xgboost准确率测试junjun2016年2月16日参考:http://chiffon.gitcafe.io/2015/05/20/newtry.html#topofpage数据来自UCIhttp://archive.ics.uci.edu/ml/machine-learning-databases/credit-sc原创 2016-02-16 17:38:35 · 5341 阅读 · 2 评论 -
9.1、神经网络实例
神经网络实例junjun2016年2月10日实例一、神经网络用于鸢尾花nnet包的nnet函数,nnet只能创建single-hidden-layer的神经网络#1、加载数据data("iris")#2、创建训练集和测试集数据index sample(1:2, nrow(iris), prob=c(0.7, 0.3), replace = T)t原创 2016-02-10 20:59:32 · 790 阅读 · 0 评论 -
9、神经网络
神经网络人工神经网络,可以把所有的Neutral networks表达为:1)激励函数:将输入信号转为输出信号。激励函数有Linear、Saturated Linear、Hyperbolic Tangent、Gaussian(又叫RBF:RadialBasis Function network)。2)网络拓扑:描述模型中神经元的数目以及有多少层,他们如何连接。网络拓扑涉及,层数、信息是原创 2016-02-10 20:37:22 · 1530 阅读 · 1 评论 -
3、随机森林
随机森林1、概念:随机森林顾名思义,随机森立算法中的“随机”一词是指通过Bagging中的bootstrapping得到不同的数据,进而体现出来的随机性:从行(观测)的角度进行bootstrap抽样,而且还要从列(变量)的角度进行随机抽样(抽样的个数少于所有变量个数),通过不同的组合生成不同的训练样本集。是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。原创 2016-02-08 14:52:22 · 3381 阅读 · 0 评论 -
3.1、随机森林之随机森林实例
随机森林junjun2016年2月8日随机森林实例Markdown脚本及数据集:http://pan.baidu.com/s/1bnY6ar9实例一、用随机森林对鸢尾花数据进行分类#1、加载数据并查看data("iris")summary(iris)## Sepal.Length Sepal.Width Petal.原创 2016-02-08 15:37:27 · 23396 阅读 · 2 评论 -
1.2.1Logistic回归实例
Logistic回归junjun2016年2月8日# logistic回归实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量Y服从高斯分布,那么得到的是线性最小二乘回归,当随机变量服从伯努利分布,则得到的是Logistic回归。R软件提供了拟合计算广义线性模型的函数glm(),其命令格式如下:fitted.model原创 2016-02-08 14:48:02 · 8256 阅读 · 0 评论 -
2.4决策树之决策树实例
决策树junjun2016年2月8日#MarkDown脚本及数据集下载:http://pan.baidu.com/s/1dEx4vgX实例一、rpart包对iris数据进行分类#1、加载数据并查看data("iris")str(iris)## 'data.frame': 150 obs. of 5 variables:## $ S原创 2016-02-08 12:07:55 · 4784 阅读 · 1 评论 -
2.3决策树之基尼系数
在CART里面划分决策树的条件是采用Gini Index,定义如下:gini(T)=1−sumnj=1p2j其中,( p_j )是类j在T中的相对频率,当类在T中是倾斜的时,gini(T)会最小。将T划分为T1(实例数为N1)和T2(实例数为N2)两个子集后,划分数据的Gini定义如下:ginisplit(T)=fracN1Ngini(T1)+fracN2Ngini(T2)原创 2016-02-08 11:09:36 · 40354 阅读 · 1 评论 -
2.2决策树之信息增益率
信息增益率信息增益率计算公式:Gain-ratio=Gain(A)/IG(A)即Gain(S, A)=E(S)–E(S, A) 如下图所示:属性A有五个取值,每个取值对应一个实例,则I(1,1,1,1,1)=-1/5*log(1,5)*5即:信息增益率的计算在掌握了信息增益的计算的基础上,需要知道分母怎么算,分母的算法与E(S,A)的算法不同,再原创 2016-02-08 11:07:05 · 3976 阅读 · 0 评论 -
2.1、决策树之信息增益与熵
一、信息增益与熵 在信息论中,熵被用来衡量一个随机变量出现的期望值。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大,熵是整个系统的平均消息量。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。 信息熵计算公式是:H(x)=E[I(xi)]=E[ log(原创 2016-02-08 11:01:59 · 10062 阅读 · 0 评论