2015年02月_大数据技术进阶

10月 07月 06月 02月

原创将存储在本地的大量分散的小文件，合并并保存在hdfs文件系统中

import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI; imp

2015-02-11 16:38:19 1975

原创 Spark读取HDFS文件，文件格式为GB2312，实现WordCount示例

import scala.Tuple2;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.lib.input.TextInputFor

2015-02-09 11:52:34 2528

原创 java生成随机大数据文件

package iie.udps.test;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java.util.Random;pu

2015-02-09 11:48:08 3118

原创 spark读hdfs文件实现wordcount并将结果存回hdfs

package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.ap

2015-02-09 11:45:52 4270 1

原创 spark streaming 实现接收网络传输数据进行WordCount功能

package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.

2015-02-09 11:42:37 2267

原创 spark mllib k-means算法实现

package iie.udps.example.spark.mllib;import java.util.regex.Pattern;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;

2015-02-09 11:39:19 1237

机器学习算法总结ppt

机器学习算法总结ppt机器学习算法总结ppt机器学习算法总结ppt机器学习算法总结ppt

2018-03-13

Hive编程指南[清晰，带目录版].pdf

Hive编程指南[清晰，带目录版].pdf Hive编程指南[清晰，带目录版].pdf

2018-03-13

Kafka简介.ppt

kafka简介架构说明生产者消费者broker kafka使用命令 ppt

2015-10-13

kafka性能测试工具

kafka性能测试工具,当我执行官方提供的kafka测试脚本，却报错没有找到ProducerPerformance，后来浏览一些代码文件，才发现没有把perf性能测试程序打包到kafka_2.x.0-0.8.x.x.jar发行版本中。

2015-05-22

ODBC访问数据库

ODBC 访问数据库,进行插入数据、检索数据操作。包含完整代码及接口函数详解

2014-11-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DF_XIAO的专栏

原创将存储在本地的大量分散的小文件，合并并保存在hdfs文件系统中

原创 Spark读取HDFS文件，文件格式为GB2312，实现WordCount示例

原创 java生成随机大数据文件

原创 spark读hdfs文件实现wordcount并将结果存回hdfs

原创 spark streaming 实现接收网络传输数据进行WordCount功能

原创 spark mllib k-means算法实现

推荐系统从入门到spark案例实战

机器学习算法总结ppt

Hive编程指南[清晰，带目录版].pdf

Kafka简介.ppt

kafka性能测试工具

ODBC访问数据库

空空如也

原创 将存储在本地的大量分散的小文件，合并并保存在hdfs文件系统中

原创 Spark读取HDFS文件，文件格式为GB2312，实现WordCount示例

原创 java生成随机大数据文件

原创 spark读hdfs文件实现wordcount并将结果存回hdfs

原创 spark streaming 实现接收网络传输数据进行WordCount功能

原创 spark mllib k-means算法实现

推荐系统从入门到spark案例实战

机器学习算法总结ppt

Hive编程指南[清晰，带目录版].pdf

Kafka简介.ppt

kafka性能测试工具

ODBC访问数据库

空空如也

原创将存储在本地的大量分散的小文件，合并并保存在hdfs文件系统中