煮个代码蘸醋吃-CSDN博客

原创 centos7搭建分布式——系统环境

======安装及创建用户====== 1.安装centos 2.登陆用户root 3.useradd <用户名> 4.passwd <用户名> 5.根据提示设置密码 6.exit（退出root用户） 7.登陆自己的用户=======使sudo可用====== 8.su root 9.ll /etc/sudoers（查看sudoers权限）： -r–r—–. 1 root ro

2016-12-10 00:44:16 447

转载 spark二次排序

原始数据：[root@iteblog.com /tmp]# vim data.txt 2015,1,242015,3,562015,1,32015,2,-432015,4,52015,3,462014,2,642015,1,42015,1,212015,2,352015,2,0期望数据：2014-2 642015-1 3,4,21,242015-2 -43,0,35

2016-12-05 03:37:40 465

转载 scala——随机数生成

(new util.Random).nextInt(n) 返回一个0-n（不包括n）的随机数比如：scala> (new util.Random).nextInt(3)res7: Int = 1返回一个[0, 2]的随机数scala生成一组不重复的随机数 1、循环获取随机数，再到 list中找，如果没有则添加def randomNew(n:Int)={ var resultList:L

2016-11-03 17:47:45 6170

转载 spark算子（repartition和coalesce）

coalescecoalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的简易实现，（假设RDD有N个分区，需要重新划分成M个分区） 1）N

2016-11-02 11:34:50 5119

开发调优调优概述Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。原则一：避免创建重复的RDD通常来说，我

2016-11-02 11:13:30 282

原创遇到的hadoop/spark报错问题汇总

1.hdfs dfs -put XXX XXX时报：org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /test/a.txt._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanod

2016-10-23 18:03:39 402

原创 Spark SQL and DataFrames

1.SparkSessionSparkSQL的操作都建立在SparkSession上from pyspark.sql import SparkSessionspark = SparkSession\ .builder\ .appName("PythonSQL")\ .config("spark.some.config.option", "some-value")\ .

2016-09-06 11:26:21 294

主公在此的博客