spark与hadoop
星之擎
且行且珍惜
展开
-
在hadoop环境下用spark跑wordcount(没有安装scala)
在spark和hdfs上运行wordcount:一、单机单节点安装spark:1、解压2、配置conf,cp,, spark-env.sh,写路径,sbin跑动[root@localhost spark-1.6.1-bin-hadoop1]# cd sbin[root@localhost sbin]# lsslaves.sh st原创 2016-04-29 23:20:17 · 2180 阅读 · 2 评论 -
spark wordcount
1、这是idea下+spark包的源码package main.scalaimport org.apache.spark.{SparkConf,SparkContext}/** * Created by root on 1/12/17. */object WordCount { val conf =new SparkConf() val sc = new Sp原创 2017-01-12 21:08:55 · 1518 阅读 · 0 评论 -
初试Spark之K-Means聚类算法实现
0.20.280.320.390.420.50.610.680.720.761.81.881.9822.022.12.242.322.382.43.43.523.583.63.653.723.773.883.913.943.984 package kmea转载 2017-02-18 11:42:14 · 904 阅读 · 0 评论 -
hadoop之二维数据之kmeans深入
O、一维数据的kmeans,很简单但二维数据+分区并行呢?1、怎么初始化中心点?2、怎么计算中心距离,跟一位一样吗?毕竟只是部分数据在计算。一、先讲讲一维数据的kmeans吧:txt string[]初始化中心点,随机选取下标,string0[] txt0第k次迭代中,计算样本到c个中心的距离,将样本归到其所应在的类txt txt0在分原创 2017-03-14 19:58:04 · 569 阅读 · 0 评论 -
could only be replicated to 0 nodes, instead of 1
[xi@master Desktop]$ hadoop dfs -put 3.txt input17/03/23 21:21:37 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /user/xi/input/3.txt c原创 2018-01-21 21:01:19 · 288 阅读 · 0 评论 -
Spark RDD 创建
Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(impli转载 2017-04-16 16:33:10 · 451 阅读 · 0 评论