qq_35488275-CSDN博客

原创 Hbase之getroworbefore（）函数

现在表emp1中插入如下两条数据那么我们要运用函数getroworbefore把这两条数据查出来import java.io.IOException;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConf

2017-07-24 10:17:21 843

原创如何在hbase中快速插入10万条数据

我们知道每一条put操作实际上都是一个rpc操作，它将客户端数据传送到服务器然后返回。这只是折小数据量的操作，如果有一个应用需要插入十万行数据到hbase表中，这样处理就太不合适了。 hbase的api配备了一个客户端的些缓冲区，缓冲区负责手机put操作，然后调用rpc一次性将put送往服务器。下面是一个插入十万行到一个表的代码：import org.apache.h

2017-05-09 15:42:08 3717

原创用java生成一个表白二维码

之前对二维码粗略的看了一下觉得可以自己实现一个二维码用来表白，程序员的浪漫。其实生成一个二维码非常简单几个类就可以搞定import java.io.File;import java.nio.file.Path;import java.util.HashMap;import java.util.Scanner;import com.google.zxing.BarcodeForma

2017-05-02 17:11:16 8372 2

原创 java实现简单的网络爬虫（爬取电影天堂电影信息）

在最开始，我们要在网上下载所用到的jar包，应为这只是一个简单的网络爬虫所以很多包里的内容没有用到。下面几个包就可以了。并且要引入这些包。主类Bigdata.javaimport org.htmlparser.util.ParserException;public class Bigdata { public static void main(String[] args) t

2017-05-02 16:38:25 9684

原创 mapreduce代码整理之实现压缩输出减少网络传输

在mian函数里这样写public static void main(String[] args) throws Exception { Configuration conf = new Configuration();conf.setStrings("mapred.tasktracker.reduce.tasks.maximum", "4");conf.setClass("mapred.

2017-04-05 11:17:49 470

原创 HDFS之删除数据

import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class FSdelete { publ

2017-03-27 16:26:14 2302

原创 hadoopAPI之FileSystem和FSDataInputStream对象

这个程序将一个文件读取两编利用了FileSystem的open方法创建一个InputStream赋值给FSDataInputStream。import java.io.IOException;import java.net.URI;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configurati

2017-03-27 16:09:27 709

原创 mapreduce代码整理之简单的kmeans聚类

我们的目标是将如下坐标点分成两类，可以很清楚地看到这个数据可以很明确的分为两类。要分类的数据在kmeans.txt里，初始中心在cluster.center.conf.txt里，把这两个文件都上传到hdfs中。Utils.javaimport java.io.IOException;import java.util.ArrayList;import java.util.List

2017-03-26 12:48:25 2346 1

原创 hadoopAPI之LineReader类

在keams算法代码里发现其中用了一个LineReader类中的readline方法故查看api代码中用了第三个方法创建了一个lineReader实例在调用lineReader实例的readline（String）方法把输入流fsis中的一行写入到Text型的line中返回一个int型如果大于零说明这一行不为空。

2017-03-25 16:58:53 724

转载 hadoop之map shuffle reducer 过程

转载自http://bit1129.iteye.com/blog/2184239深入Spark Shuffle之前，首先总结下Hadoop MapReduce的Shuffle过程，了解了Hadoop MR的shuffle过程，有助于对Spark的Shuffle过程的理解 Hadoo MapReduce的Shuffle总体流程图问题：下图中Map

2017-03-20 13:22:46 951

原创 hadoop之Writable序列化

代码如下：import java.io.ByteArrayInputStream;import java.io.DataInputStream;import java.io.DataOutputStream;import java.io.IOException;import org.apache.commons.io.output.ByteArrayOutputStream;impo

2017-03-15 21:27:04 335

翻译 HDFS之SequenceFile的读写操作

本文代码参考hadoop权威指南里第四章hadoop的i/o操作SequenceFile写操作：import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.ap

2017-03-15 18:24:50 2453

原创 HDFS之上传文件到hdfs中

Filecopywithprogress.javaimport java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import java

2017-03-14 19:30:10 817

原创 HDFS之globStatus()函数（用通配符匹配制定模式的路径）liststatus() （列出目录下的所有文件）

Globstatus.javaimport java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import o

2017-03-14 18:51:55 4997

原创 HDFS之filestatus（查看hdfs里的数据信息）

FileTest.java本程序列出了hdfs里的test.txt的信息import java.io.IOException;import java.net.URI;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.

2017-03-14 18:22:42 2561

原创 mapreduce代码整理之MyInputFormat(自定义InputFormat)

自定义的InputFormat可以更好的读入数据，用textinputformat就只能读取一行，本程序主要实现了读取多行的情况。MboxFileFormat.javaimport java.io.IOException;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.InputSplit;im

2017-03-13 15:26:43 405

原创 mapreduce代码整理之mywritable（自定义writable）

这个程序包含四个类:MyWritable.java自定义mywritable 把（张三李四）作为一个writable读入。import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Text;import org.a

2017-03-13 15:10:48 836

原创 mapreduce代码整理之sort

本编文章主要运用mapreduce中的机制进行排序import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop

2017-03-06 11:25:07 366

原创 mapreduce代码整理之wordcount

大家都说wordcount是mapreduce中的halloword，代码如下。import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration

2017-03-06 11:10:07 359

qq_35488275的博客