数据挖掘
**码上人生**
在数据、代码中寻找诗和远方......
展开
-
4、ensemble组合方法
ensemble组合方法1、ensemble概念通过聚合多个分类器的预测来提高分类的准确率,这种技术称为组合方法(ensemble method) 。组合方法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行权重控制来进行分类。Ensemble技术在数据挖掘的三个方向:1.在样本上做文章,基分类器为同一个分类算法,主要的技术有bagging,boosting;2.在分原创 2016-02-11 16:05:10 · 3953 阅读 · 0 评论 -
文本挖掘实例
文本挖掘junjun2016年2月4日文本分析的应用越来越广泛,今天就讲讲关于评论数据的那点事。评论数据的获取:一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,成功爬取该酒店的评论数据,于是我开始使用这些数据做相关的分析。(注意:数据分析、挖掘时,这部分工作可以有专门的人员来完成)1、加载数据和包#1)本文使原创 2016-02-04 15:44:28 · 10487 阅读 · 1 评论 -
数据挖掘总结之数据挖掘与机器学习的区别
数据挖掘与机器学习的区别与机器学习经常一起出现的就是数据挖掘,两种经常会有重叠的地方, ① 数据挖掘某种意义上更多的是关注从大量的数据中获得新的见解; ② 机器学习聚焦于进行已知的任务,而数据挖掘则是搜寻隐藏的信息。 例如电商利用机器学习来决定向谁推荐什么产品,数据挖掘用来了解什么样的人喜欢什么产品。机器学习和数据挖掘不严格区分。 数据挖掘和机器学习的区别和联系,数据挖掘受到很多学科原创 2016-02-04 16:34:43 · 2918 阅读 · 0 评论 -
数据挖掘总结之数据挖掘的过程
数据挖掘的过程机器学习、数据挖掘的过程:数据选择——》数据清洗——》数据构造——》数据格式化——》训练模型——》评估模型——》模型优化——》部署 数据选择:剔除不相关属性和冗余属性 数据清洗:检验异常值、提高数据质量 数据构造:对缺失边界的属性进行样本数据构建 数据格式化:对样本数值化、规范化过程也可以总结为:业务理解——》数据理解——》建模 ——》模型优化——》部署如有不当之处,欢迎指导原创 2016-02-04 16:30:45 · 679 阅读 · 0 评论 -
2016数据挖掘面试总结
2016年数据挖掘面试总结1、数据倾斜:MapReduce、hive等 避免数据倾斜参数调节:hive.map.aggr=trueMap 端部分聚合,相当于Combinerhive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果集合会随原创 2016-03-08 09:03:18 · 3956 阅读 · 4 评论 -
RCurl汽车之家抓取
汽车之家抓取junjun2016年4月20日参考:http://blog.sina.com.cn/s/blog_6f2336820102v13n.html汽车之家抓取library(RCurl)## Loading required package: bitops#install.packages("XML")library(XML)librar原创 2016-04-20 15:48:30 · 1686 阅读 · 0 评论 -
RCurl抓取
RCurl抓取junjun2016年4月20日参考:http://www.w2bc.com/Article/284891、RCurl抓取验证码RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从 服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。 什么是curl&lib原创 2016-04-20 16:10:49 · 2324 阅读 · 0 评论 -
RCurl爬虫抓取验证码例子
RCurl抓取验证码流程junjun2016年4月20日抓取验证码#1)抓取验证的流程#①打开网页到验证码的位置#②鼠标左键拖动验证#③得到验证的url:http://tjcredit.gov.cn/verifycode?date=1461146339377#④最后,把此url加入到R程序中#⑤循环抓取验证码即可#2)抓取一个验证码lib原创 2016-04-20 18:12:21 · 2774 阅读 · 0 评论 -
GBRT/GBDT算法实例
GBRT/GBDTjunjun2016年10月4日GBM实例1:#1、构造数据集# A least squares regression example # create some data N1000X1runif(N)X22*runif(N)X3ordered(sample(letters[1:4],N,replace=TRUE),levels=原创 2016-10-04 12:55:52 · 7707 阅读 · 0 评论 -
WOE评分卡--WOE理论
1、评分卡概述最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式.由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自变量进行再次的处理。比较常规的做法转载 2017-03-28 10:33:53 · 26325 阅读 · 4 评论 -
WOE评分卡--IV
目录(?)[-]IV的用途对IV的直观理解IV的计算1WOE2 IV的计算公式3 用实例介绍IV的计算和使用31 实例32 计算WOE和IV33 IV值的比较和变量预测能力的排序关于IV和WOE的进一步思考1 为什么用IV而不是直接用WOE2 IV的极端情况以及处理方式转载自:http://blog.csdn.net/ke转载 2017-03-28 10:38:13 · 7038 阅读 · 0 评论 -
WOE信用评分卡--R语言实例
目录(?)[-]信用卡评分一数据准备二数据处理三变量分析四切分数据集五Logistic回归六WOE转换七评分卡的创建和实施转载自:http://blog.csdn.net/csqazwsxedc/article/details/51225156信用卡评分2016年1月10日一、数据准备1、 问题的准备• 目标:要完成一个转载 2017-03-28 10:41:34 · 23114 阅读 · 1 评论 -
项目1:logit,GBM,knn,xgboost准确率测试
logit,GBM,knn,xgboost准确率测试junjun2016年2月16日参考:http://chiffon.gitcafe.io/2015/05/20/newtry.html#topofpage数据来自UCIhttp://archive.ics.uci.edu/ml/machine-learning-databases/credit-sc原创 2016-02-16 17:38:35 · 5276 阅读 · 2 评论 -
大数据项目3:自动创建N棵决策树脚本
ctreeN <- function(n) { #1.读取数据 cup98 <- read.csv(“F:\R\Rworkspace\cup98lrn/cup98lrn.txt”) #2.设置训练集和测试集比例 LoopNum <- n trainPercentage <- 30 testPercentage <- 20 restPercentage <-原创 2016-02-16 12:04:59 · 828 阅读 · 1 评论 -
大数据项目2:内存受限的大数据预测模型
内存受限的大数据预测模型junjun2016年2月15日Rmarkdown脚本及数据集:http://pan.baidu.com/s/1bogaFrp一、项目简介:回归树用于分类预测1、项目集数据介绍使用randomForest包和party包来创建随机森林的区别:randomForest包无法处理包含缺失原创 2016-02-16 11:56:57 · 3539 阅读 · 2 评论 -
10.1、协同过滤实例
协同过滤实例junjun2016年2月11日recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架。它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法 recommender包的数据类型采用S4类构造,使用抽象的raringMatrix为评分数据提供接口。raringMatrix采用了很多类似矩阵对象的操作,如dim(),原创 2016-02-11 16:37:13 · 2874 阅读 · 0 评论 -
11.、关联规则算法
关联规则算法关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basketanalysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。关联规则的应用场合。在商业销售上,关联规则可用于交叉销售,以得到更大的收入;在保险业务方面,如果出现了不常见的索赔要求组合,则可原创 2016-02-11 17:26:48 · 662 阅读 · 0 评论 -
11.1、关联规则实例
关联规则junjun2016年2月11日实例一:通过arules包中的Aprior()函数求关联规则、eclat()函数求频繁项集#1、加载数据并查看library(arules)## Loading required package: Matrix## ## Attaching package: 'arules'## The following原创 2016-02-11 17:27:44 · 3588 阅读 · 0 评论 -
11.2、关联规则实例
实例三、下面的实例部分使用的数据为rattle包中,csv目录下的dvdtrans.csv文件,该数据显示了DVD购买的记录。1、加载数据和包:>library(rattle)> library(arules)> dvd F:\\R\\R-3.2.2\\library\\rattle\\csv/dvdtrans.csv", header=T) 在安装包的目录下> clas原创 2016-02-11 17:29:04 · 4747 阅读 · 1 评论 -
12、pageRank
pageRank1、PageRank算法原理PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。1)、对于某个互联网网页A来说,该网页PageRank的计算基于以下两原创 2016-02-12 09:51:45 · 1221 阅读 · 0 评论 -
12.1、PageRank实例
实例一:PageRank在R中的应用1、加载R包:> library(igraph)> library(dplyr) 2、随机生成具有10个对象的有向图:> g igraph包中的random.graph.game()函数或者erdos.renyi.game(n, p.or.m,directed)函数:根据Erdos-Renyi模型生成随机图形。n为图中的顶点数;p.o原创 2016-02-12 09:54:40 · 2877 阅读 · 0 评论 -
13、时间序列
1、时间序列的分类时间序列分为:非季节性数据和季节性数据一个非季节性时间序列包含一个趋势部分和一个不规则部分。一个季节性时间序列包含一个趋势部分,一个季节性部分和一个不规则部分。在实践操作中,时间序列数据存在着前后关系。例如,今天股票的价格很有可能决定明天股票的价格。明天的温度取决于今天的气温。做天气预报的具体操作方法,是使用已经存在的天气历史记录,比如说今天的气温,昨天的气温,前原创 2016-02-12 10:56:50 · 4096 阅读 · 0 评论 -
重点:用户画像
一、用户画像参考:http://www.36dsj.com/archives/160901、为什么要做用户画像?一方面是海量信息的汇集,例如京东是一家大型全品类综合电商,海量商品和消费者产生了从网站前端浏览、搜索、评价、交易到网站后端支付、收货、客服等多维度全覆盖的数据体系,另一方面日益复杂的业务场景和逻辑使得信息的处理挖掘日益重要;也就是说,京东已经形成一个储量丰富、品位上乘且增量巨原创 2016-02-13 10:38:42 · 6480 阅读 · 0 评论 -
用户画像数据建模方法
作者:百分点技术总监郭志金从1991年TimBerners-Lee发明了万维网(WorldWideWeb)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线转载 2016-02-14 10:00:17 · 3085 阅读 · 0 评论 -
13.1、时间序列实例
时间序列实例junjun2016年2月12日Rmarkdown脚本及数据集:http://pan.baidu.com/s/1gekA3AV实例一、使用ARIMA模型对裙子长度预测ARIMA 模型为平稳时间序列定义的。 因此, 如果你从一个非平稳的时间序列开始, 首先你就需要做时间序列差分直到你得到一个平稳时间序列。如果你必须对时间序列做 d 阶差分才能得到一原创 2016-02-12 12:07:59 · 14835 阅读 · 4 评论 -
大数据项目1:客户回复预测与效益最大化
大数据项目1junjun2016年2月14日RMarkdown文档及数据集:http://pan.baidu.com/s/1dDRIONn参考书籍:R语言与数据挖掘最佳实践和经典案例_(澳)客户回复预测与效益最大化1、数据简介KDD Cup 1998年竞赛的目标是估计一个直邮的回复量,以便获得最多的捐款。数据集的格原创 2016-02-14 17:46:33 · 4200 阅读 · 0 评论 -
WOE信用评分卡--R语言实现
---title: "信用评分模型"author:"junjun"date: "2016年10月3日"output:html_document--- # 一、数据的获取与整合 数据来源:数据来自Kaggle,cs-training.csv是有15万条的样本数据,下图可以看到这份数据的大致情况。下载地址为:https://www.kaggle.com/c/G原创 2017-03-28 10:44:44 · 11954 阅读 · 0 评论