- 博客(7)
- 收藏
- 关注
原创 centos7搭建分布式——系统环境
======安装及创建用户====== 1.安装centos 2.登陆用户root 3.useradd <用户名> 4.passwd <用户名> 5.根据提示设置密码 6.exit(退出root用户) 7.登陆自己的用户=======使sudo可用====== 8.su root 9.ll /etc/sudoers(查看sudoers权限): -r–r—–. 1 root ro
2016-12-10 00:44:16 447
转载 spark二次排序
原始数据:[root@iteblog.com /tmp]# vim data.txt 2015,1,242015,3,562015,1,32015,2,-432015,4,52015,3,462014,2,642015,1,42015,1,212015,2,352015,2,0期望数据:2014-2 642015-1 3,4,21,242015-2 -43,0,35
2016-12-05 03:37:40 465
转载 scala——随机数生成
(new util.Random).nextInt(n) 返回一个0-n(不包括n) 的随机数 比如:scala> (new util.Random).nextInt(3)res7: Int = 1返回一个[0, 2]的随机数scala生成一组不重复的随机数 1、循环获取随机数,再到 list中找,如果没有则添加def randomNew(n:Int)={ var resultList:L
2016-11-03 17:47:45 6170
转载 spark算子(repartition和coalesce)
coalescecoalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区) 1)N
2016-11-02 11:34:50 5119
转载 spark调优(基础)
开发调优调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。原则一:避免创建重复的RDD通常来说,我
2016-11-02 11:13:30 282
原创 遇到的hadoop/spark报错问题汇总
1.hdfs dfs -put XXX XXX时报:org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /test/a.txt._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanod
2016-10-23 18:03:39 402
原创 Spark SQL and DataFrames
1.SparkSessionSparkSQL的操作都建立在SparkSession上from pyspark.sql import SparkSessionspark = SparkSession\ .builder\ .appName("PythonSQL")\ .config("spark.some.config.option", "some-value")\ .
2016-09-06 11:26:21 294
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人