- 博客(6)
- 资源 (9)
- 收藏
- 关注
原创 将存储在本地的大量分散的小文件,合并并保存在hdfs文件系统中
import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI; imp
2015-02-11 16:38:19 1975
原创 Spark读取HDFS文件,文件格式为GB2312,实现WordCount示例
import scala.Tuple2;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.lib.input.TextInputFor
2015-02-09 11:52:34 2528
原创 java生成随机大数据文件
package iie.udps.test;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java.util.Random;pu
2015-02-09 11:48:08 3118
原创 spark读hdfs文件实现wordcount并将结果存回hdfs
package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.ap
2015-02-09 11:45:52 4270 1
原创 spark streaming 实现接收网络传输数据进行WordCount功能
package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.
2015-02-09 11:42:37 2267
原创 spark mllib k-means算法实现
package iie.udps.example.spark.mllib;import java.util.regex.Pattern;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;
2015-02-09 11:39:19 1237
kafka性能测试工具
2015-05-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人