spark&&hadoop
着凉的石头
持续学习持续成长
展开
-
spark 笔记(一) stand alone 和yarn-cluster的部分区别
公司最近的spark集群由原来的standalone迁移到spark on yarn了,在迁移相关的程序时,发现调整还是有一些的,以下分别是两个版本提交的部分shell命令,从命令可以看出其区别,这个区别主要是spark on yarn的工作方式不太一样,造成提交的方式也不太一样。 standalone方式的脚本为: spark-submit --class com.bg.tools原创 2015-06-17 20:24:17 · 5654 阅读 · 0 评论 -
spark 笔记(二) 参数设置和调优
在迁移相关的spark程序到yarn的过程中间,对有些地方的配置进行了调整和优化, 总结起来,常用的一些设置如下: 1. spark.serializer 对象的序列化设置可以设置成spark的序列化类型,相对比较高效和紧凑,网络传输性能比较好 2. spark.kryoserializer.buffer.mb 用来设置对象序列化占用空间大小,当对象比较大的时候需要设置这个选项 3. spa原创 2015-06-26 10:17:14 · 4175 阅读 · 0 评论 -
聚类(一)pyspark 实现特征的ID化
项目中需要实现一个简单的聚类,初步衡量了下样本数量在2000W左右,第一次写spark还是14年的时候,而且都是基于java实现的模型算法,这次就简单用pyspark实现了特征的Id化, 即将字符串类型的特征转为数字表示的Id。这个在模型中相对比较常见, 比较主要的点应该是使用broadcast广播了特征和id的映射关系。 #!/usr/bin/env python #-*-coding:u原创 2016-04-25 21:16:21 · 2427 阅读 · 0 评论