军军的专栏

在数据中寻找诗和远方

spark常用函数:transformation和action

1、RDD提供了两种类型的操作:transformation和action 所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。 1)transformation操作:得到一个新的RDD,比...

2016-02-19 15:20:06

阅读数 12060

评论数 0

spark例子

1、Wordcount程序测试:进入spark-shell中 val text_file =sc.textFile("hdfs://hadoop1:8020/ai/README.txt") val counts =text_file.flatMap(line=>lin...

2016-02-19 15:18:16

阅读数 1015

评论数 0

Spark 启动方式

1、spark 提交任务方式 1)、spark on yarn: $ ./bin/spark-submit--class org.apache.spark.examples.SparkPi \     --master yarn-cluster \     --num-execu...

2016-02-19 15:14:43

阅读数 5411

评论数 0

sparkR通过data.table中的fread函数读取大数据集

spark集群搭建及介绍:敬请关注 数据集:http://pan.baidu.com/s/1i4yMwHB 总结:sparkR通过data.table中的fread函数读取大数据集,相比于正常读取方式大致有3-5倍的提升;在重新处理大数据集是,最好重新登录R或者sparkR环境,因为建模或预测...

2016-02-18 11:45:19

阅读数 4279

评论数 2

sparkR处理Gb级数据集

spark集群搭建及介绍:敬请关注 数据集:http://pan.baidu.com/s/1sjYN7lF 总结:使用sparkR进行数据分析建模相比R大致有3-5倍的提升 查看原始数据集:通过iris数据集生成 [root@master data]#pwd /data [ro...

2016-02-18 11:06:06

阅读数 1857

评论数 0

推荐系统的误区

推荐系统的误区 转载:http://www.admin10000.com/document/4995.html 回想起来,我也算是国内接触推荐系统较早的人之一了,最近和人聊天,觉得不少人对推荐系统有所误解,以为需要多么高大上的算法才能搭建起来的,我只想说我经常说...

2016-02-18 09:27:30

阅读数 471

评论数 0

项目1:logit,GBM,knn,xgboost准确率测试

logit,GBM,knn,xgboost准确率测试 junjun 2016年2月16日 参考:http://chiffon.gitcafe.io/2015/05/20/newtry.html#topofpage 数据来自UCIhttp://archive.ics.uci.edu/...

2016-02-16 17:38:35

阅读数 3854

评论数 2

大数据项目3:自动创建N棵决策树脚本

ctreeN <- function(n) { #1.读取数据 cup98 <- read.csv(“F:\R\Rworkspace\cup98lrn/cup98lrn.txt”) #2.设置训练集和测试集比例 LoopNum <- n trainP...

2016-02-16 12:04:59

阅读数 641

评论数 1

大数据项目2:内存受限的大数据预测模型

内存受限的大数据预测模型 junjun 2016年2月15日 Rmarkdown脚本及数据集:http://pan.baidu.com/s/1bogaFrp 一、项目简介:回归树用于分类预测 1、项目集数据介绍 使用r...

2016-02-16 11:56:57

阅读数 2522

评论数 2

统计学:矩估计法

矩估计法 百度百科:http://baike.baidu.com/link?url=xHBhj9bfqU1AJHc9yj7O-6BHKFaiYsljabnCM73ycPuu5oe4pQkurGoACuB-TO8ewG6PTpIJO5ctveySK-KZ7_ 所谓矩估计法,就是利用样本矩...

2016-02-16 10:39:17

阅读数 1058

评论数 0

大数据项目1:客户回复预测与效益最大化

大数据项目1 junjun 2016年2月14日 RMarkdown文档及数据集:http://pan.baidu.com/s/1dDRIONn 参考书籍:R语言与数据挖掘最佳实践和经典案例_(澳) 客户回复预测与效益最大化 1、数据简介 KDD Cup 1998年竞赛...

2016-02-14 17:46:33

阅读数 3274

评论数 0

用户画像数据建模方法

作者:百分点技术总监郭志金 从1991年TimBerners-Lee发明了万维网(WorldWideWeb)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业...

2016-02-14 10:00:17

阅读数 2779

评论数 0

重点:用户画像

一、用户画像 参考:http://www.36dsj.com/archives/16090 1、为什么要做用户画像? 一方面是海量信息的汇集,例如京东是一家大型全品类综合电商,海量商品和消费者产生了从网站前端浏览、搜索、评价、交易到网站后端支付、收货、客服等多维度全覆盖的数据体系,另一方面日益复杂...

2016-02-13 10:38:42

阅读数 5539

评论数 0

13.1、时间序列实例

时间序列实例 junjun 2016年2月12日 Rmarkdown脚本及数据集:http://pan.baidu.com/s/1gekA3AV 实例一、使用ARIMA模型对裙子长度预测 ARIMA 模型为平稳时间序列定义的。 因此, 如果你从一个非平稳的时间序列开始, 首先你就需要做时...

2016-02-12 12:07:59

阅读数 7589

评论数 4

13、时间序列

1、时间序列的分类 时间序列分为:非季节性数据和季节性数据 一个非季节性时间序列包含一个趋势部分和一个不规则部分。 一个季节性时间序列包含一个趋势部分,一个季节性部分和一个不规则部分。 在实践操作中,时间序列数据存在着前后关系。例如,今天股票的价格很有可能决定明天股票的价格。明天的温度取决于今天的...

2016-02-12 10:56:50

阅读数 3075

评论数 0

12.1、PageRank实例

实例一:PageRank在R中的应用 1、加载R包: > library(igraph) > library(dplyr)   2、随机生成具有10个对象的有向图: > g igraph包中的random.graph.game()函数或者erdos.renyi.g...

2016-02-12 09:54:40

阅读数 1610

评论数 0

12、pageRank

pageRank 1、PageRank算法原理 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。其级别从0到10级,10级为满分。PR值越高说...

2016-02-12 09:51:45

阅读数 1042

评论数 0

11.2、关联规则实例

实例三、下面的实例部分使用的数据为rattle包中,csv目录下的dvdtrans.csv文件,该数据显示了DVD购买的记录。 1、加载数据和包: >library(rattle) > library(arules) > dvd F:\\R\\R-3.2.2\\library\\...

2016-02-11 17:29:04

阅读数 2039

评论数 1

11.1、关联规则实例

关联规则 junjun 2016年2月11日 实例一:通过arules包中的Aprior()函数求关联规则、eclat()函数求频繁项集 #1、加载数据并查看 library(arules) ## Loading required package: Matrix ## ## Attac...

2016-02-11 17:27:44

阅读数 2177

评论数 0

11.、关联规则算法

关联规则算法 关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basketanalysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。 关联规则的应用...

2016-02-11 17:26:48

阅读数 469

评论数 0

提示
确定要删除当前文章?
取消 删除