2014年12月_大数据技术进阶

12月 11月 10月

转载 java实现读取文件大全

1、按字节读取文件内容2、按字符读取文件内容3、按行读取文件内容4、随机读取文件内容 public class ReadFromFile { /** * 以字节为单位读取文件，常用于读二进制文件，如图片、声音、影像等文件。 */ public static void readFileByBytes(String fileName) {

2014-12-24 11:40:32 614

原创 spark+hcatalog操作hive表及其数据

package iie.hadoop.hcatalog.spark;import iie.udps.common.hcatalog.SerHCatInputFormat;import iie.udps.common.hcatalog.SerHCatOutputFormat;import java.io.BufferedReader;import java.io.IOException;

2014-12-24 11:21:18 4369

原创在hdfs上存取xml文件的实现代码

要读取的文件为：/user/hdfs/stdin.xml SK9cohJD4yklcD8dJuZXDA default.test1 要存的文件为：/user/hdfs/stdin.xml SK9cohJD4yklcD8dJuZXDA de

2014-12-24 11:13:08 930

转载 hadoop shell 详解

概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法：hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架用于解析一般的选项和运行类。命令选项 --conf

2014-12-17 10:07:16 559

转载 lucene教程简介

1 lucene简介1.1 什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。2 lucene的工作方式 lucene提供的服务实际包含两部分：一入一出。所谓入是写入，即将你提供的源（本质是字符串）写入索引或者将其从索引中删除

2014-12-12 09:52:53 582

原创 Hive on Spark运行环境搭建

Hive是基于Hadoop的开源数据仓库工具，提供了类似于SQL的HiveQL语言，使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块，这一部分是用Hadoop中MapReduce计算框架来实现，因而在处理速度上不是非常令人满意。由于Spark出色的处理速度，有人已

2014-12-04 11:10:56 1429

原创 hive数据导入方法

可以通过多种方式将数据导入hive表1.通过外部表导入用户在hive上建external表，建表的同时指定hdfs路径，在数据拷贝到指定hdfs路径的同时，也同时完成数据插入external表。例如：编辑文件test.txt$ cat test.txt 1 hello2 world3 test4 case

2014-12-02 16:46:33 995

机器学习算法总结ppt

机器学习算法总结ppt机器学习算法总结ppt机器学习算法总结ppt机器学习算法总结ppt

2018-03-13

Hive编程指南[清晰，带目录版].pdf

Hive编程指南[清晰，带目录版].pdf Hive编程指南[清晰，带目录版].pdf

2018-03-13

Kafka简介.ppt

kafka简介架构说明生产者消费者broker kafka使用命令 ppt

2015-10-13

kafka性能测试工具

kafka性能测试工具,当我执行官方提供的kafka测试脚本，却报错没有找到ProducerPerformance，后来浏览一些代码文件，才发现没有把perf性能测试程序打包到kafka_2.x.0-0.8.x.x.jar发行版本中。

2015-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DF_XIAO的专栏