spark相关
猫二哥
这个作者很懒,什么都没留下…
展开
-
scala学习-基本语法3
上接scala学习计算开始基本语法2 接上一篇的一点尾巴 第九步:读取文件操作 读取文件中的每行,读取文件,然后每行打印出来,使用相对路径,data目录里放在工程里。import scala.io.Sourceval file = Source.fromFile("data/data_test.txt") for(f<-file.getLines()){ println(原创 2015-11-14 10:04:30 · 450 阅读 · 0 评论 -
ntp-实现时间同步
一背景介绍已经安装好crontab和ntp,系统centos6.5,一般不是最小化安装都会有哈。集群一定要搭建时间同步机制,不然运行久了,job运行会非常慢。 二搭建内网NTP服务器,通过此服务器进行时间同步1修改配置文件vim /etc/ntp.conf# For more information about this file, see the man pages# ntp.conf(5),原创 2016-10-31 17:24:12 · 3525 阅读 · 0 评论 -
shell半自动化部署standalone的spark分布式集群
背景:以前每次配置hadoop和spark都要各种输入配置,太烦了。这次花了点时间,自己做了个shell来辅助自己的spark部署方式。cdh的hadoop没有部署,以后再部署,hadoop和spark准备分开来搞。shell半自动化部署standalone的spark集群一搞定3个虚拟机我是使用的vm来做的三个虚拟机,系统为centos6.5,现在各种系统都支持吧,详细的可以看官网支持哪些系统。原创 2016-10-20 18:50:10 · 1800 阅读 · 1 评论 -
基于Spark的Als算法+自迭代+Spark2.0新写法
主要介绍了一下几点: 1矩阵分解的几种算法 2spark使用矩阵分解的几种方式,1ml 包中使用,2mllib包中的使用,其实有不调用包自己写的案列(可以去看看哈,就在example目录) 3使用ALS做推荐的一个比较详细的流程:1自迭代确定比较优的参数是,2使用参数训练模型,3使用模型推荐topn的物品给用户 4讲了怎么自迭代ALS算法参数,感觉这个还重要点 5提交spark的报了一个错原创 2016-10-25 16:13:57 · 15954 阅读 · 9 评论 -
基于Spark的FPGrowth(关联规则算法)
在推荐中,关联规则推荐使用的比较频繁,毕竟是通过概率来预测的,易于理解且准确度比较高,不过有一个缺点为,想要覆盖推荐物品的数量,就要降低支持度与置信度。过高的支持度与置信度会导致物品覆盖不过,这里需要其他的推荐方法合作,建议使用基于Spark的模型推荐算法(矩阵分解+ALS).一FPGrowth算法描述:FPGrowth算法概念:支持度,置信度,提升度(Spark好像没有计算这个的函数,需要自己计算原创 2016-10-24 11:34:10 · 19849 阅读 · 4 评论 -
Spark的逻辑回归与P_R_F评估
Spark的逻辑回归与P_R_F评估1逻辑回归可以使用预测2分类的场景,必须使用已经有分类的样本,然后经过训练,预测未分类的样本的Lable,输出是概率,表示一般为正的概率是好多。输入: libsvn数据 样本如下: sample_binary_classification_data.txt在spark的目录中有,属性太多了就不复制了。一般这种数据是存在表中,att1,att2…attn,La原创 2016-10-21 18:49:37 · 4242 阅读 · 0 评论 -
spark基于用户的协同过滤算法与坑点,提交job
承接上文: http://blog.csdn.net/wangqi880/article/details/52875524 对了,每台机子的防火墙要关闭哈,不然spark集群启动不起来 前一次,已经把spark的分布式集群布置好了,今天写一个简单的案例来运行。会写一些关于spark的推荐的东西,这里主要有4点,1基于用户协同过滤,2基于物品协同过滤,3基于模型的协同过滤,4基于关联规则的推荐(原创 2016-10-21 15:48:00 · 8317 阅读 · 5 评论 -
Hive on Spark:起点
翻译自官网: https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started 开始时翻译,后面会出集成的具体步骤。主要是讲了一些概览,spark的参数设置,遇到的问题处理等。少环境的搭建。 spark的安装 配置Yarn 配置Hive 配置Spark 问题 推荐的配置 设计文档 H翻译 2016-01-23 21:44:31 · 3131 阅读 · 1 评论 -
scala学习-if,while,for,try用法7
scala中if,for,while,try的一些简单用法原创 2016-01-16 13:58:13 · 597 阅读 · 0 评论 -
scala学习-介绍scala的几种特性7
承接上篇,前提条件检查,使用require。 1添加成员变量 记得上篇的时候,使用了类参数的方式来构建主构造函数,但是这是由缺陷的。 现在我们构建一个两个rational相加的操作。class Rational (n:Int,d:Int){ println("i am a class construction~"+n+"/"+d) require(d!=0) override de原创 2015-11-23 21:22:05 · 1259 阅读 · 0 评论 -
scala学习-介绍scala的几种特性6
案例来自于引路蜂 本文介绍完整的定义一个类。定义函数化对象,函数化对象的意思是所定义的类和对象都不包含任何可以修改的状态。还会介绍Scala的几种特性:类参数和构造函数,方法,操作符,私有成员,重载,过载,条件查询,引用自身。 1类定义规范 定义一个有理数的类。有理数的定义:一个有理数可以表示成分数的形式:n/d,其中n和d都是整数,d不能为0。 因此我们定义的个有理数类,Rational类原创 2015-11-19 22:26:42 · 1187 阅读 · 0 评论 -
5分钟深入spark运行机制
转载-包子铺里聊it 因为这篇文章说的简单明了,感觉有必要学习下哈…… 其中有写概念我会加入我自己的理解(个人见解啊)。 关键概念 spark的关键就是引入了RDD,resilient distributed datasets概念。其实没有什么太深,你可以把rdd想想成一组数据。 spark把要处理的数据,处理的中间结果,和输出结果都定义成RDD,这样一个场景的spark job就类似:转载 2015-11-22 21:52:48 · 1585 阅读 · 0 评论 -
scala学习-基本数据类型和简单操作5
1基本数据类型 只要是java的基本数据类型,Scala都支持。不过Scala中的数据类型都是对象,这些基本类型都可以通过隐式自动转化的形式支持更多的方法。隐式自动转换的概念简单的就是,为基本类型提供扩展,比如(引路蜂例子),调用(-1).abs(),-1是Int型,基本类型Int步支持abs方法的,那么Scala就会把-1转化成RichInt类型,然后调用RichInt类型的abs方法。 基本原创 2015-11-15 19:53:46 · 1279 阅读 · 0 评论 -
scala学习-基本语法4
类和对象2: 前面提到,Scala是面向对象的编程,且Scala不允许保护静态元素-静态方法和静态变量。意思是社么呢,就是我虽然使用Private 定义了变量,在外面我还是可以访问。package org.wq.learnobject CheckSumAccumulator { def main(args:Array[String]):Unit={ val c = new Chec原创 2015-11-14 13:07:51 · 581 阅读 · 0 评论 -
如何从菜鸟成长成spark大数据高手(转载+自我笔记)
如何从菜鸟成长成spark大数据高手(转载+自我笔记) 以后会出各种关于hadoop,spark,机器学习专题,新手笔记,大家多多提意见。Spark采用了一个统一的技术堆栈解决了云计算大数据的如流式处理,图技术,机器学习,nosql查询等方面的核心问题,RDD。 具有完整的生态系统,这奠定了一统云计算大数据领域的霸主地位。 要成为高手,需要经历以下几个阶段。第一阶段:熟练掌握Scala语言转载 2015-11-11 22:19:23 · 1114 阅读 · 1 评论 -
scala学习计算开始基本语法1-从今天开始更新
1环境: window linux 我的机子的系统ubonto不能用了,就是用window的eclipse for scala来学习。http://scala-ide.org/ 环境就不说了。linux上可以使用交互命令行,也可以使用eclipse这种ide,intellij idea比较火,但是内存消耗大。这次就步用了。 今天从scala的基本语法开始。 讲之前,要hello,很多语言原创 2015-11-12 23:30:42 · 720 阅读 · 0 评论 -
scala学习计算开始基本语法2
上接scala学习开始基本语法1 第五步:数组的使用 在scala中,可以使用new来实例化对象,当你创建一个数组对象的时候,你可以使用数值或者是类型参数。但是在scala中,是使用[]来指明对象,java是使用<>。如下代码package org.wq.learnobject day2 { def main(args: Array[String]): Unit = { val st原创 2015-11-13 20:27:57 · 550 阅读 · 0 评论 -
kryo的速度测试
1背景介绍 这里主要想测试一些spark的优化方式之一的kryo。场景为通过数1000w的数据,通过日期分组,求一个点击字段的sum。使用了kryo和没使用kryo的时间对比。这里由于环境限制,主要是使用到了kryo在各个机器之间的传输序列化(这里是内网很快),传入内存序列化,磁盘数据RDD的序列化(这个案列没有用到)。数据格式: id,addtime,deviceNum,itemid,op_t原创 2017-04-09 10:44:51 · 2014 阅读 · 0 评论