2017年07月_weixin_38737789

原创流：简单的压缩和解压流程

package guidang;/** * Created by Administrator on 2017/7/29. */public class TestArchive { public static void main(String[] args) { Archiver a = new Archiver(); a.appendFile("E:\\

2017-07-29 20:14:29 314

原创流总结

FileOutputStream(File file,boolean append)可以追加文件filereader、filewriter无法更改字符集package com.it18zhang.java.test;import com.it18zhang.java.util.DataUtil;import org.junit.Test;import java.io.*;import jav

2017-07-29 16:29:42 217

转载 sqoop

sqoop导入 hdfs: sqoop import –connect jdbc:mysql://s201/mydb1 –username sqoop –password sqoop –table emp –m 1sqoop导入 hive: sqoop import –connect jdbc:mysql://s201/mydb1 –username sqoop –password sqoop

2017-07-25 23:17:53 329

原创 flume的普通配置

批量收集监控一个文件夹，静态文件收集完之后，会重新命名成新文件.compeleted.采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去Flume 事件事件作为Flume内部数据传输的最基本单元.它是由一个转载数据的字节数组(该数据组是从数据源接入点传入，并传输给传输器，也就是HDFS/HBase)和一个可选头部构成.每一行封装成一个Eve

2017-07-20 20:02:12 355

转载 hive基本操作

Hive基本操作与案例创建数据库，切换数据库create database testdb2; use testdb2; 创建管理表按 Ctrl+C 复制代码create table emp( empno int, empname string, job string, mgr int, hiredate string, salary double, comm double,

2017-07-17 21:46:17 299

原创 MapReduce阶段map的setup() 和cleanup()

setup() 此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一行输入时都会进行资源初始化工作，导致重复，程序运行效率不高！ cleanup() 此方法被MapReduce框架仅且执行一次，在执行完毕Map任务后，进行相关变量或资源的释放工作。若是将释放资源工作放

2017-07-17 09:42:03 750

Combiner 会继承Reducer，它是一种mr的优化，用于减少服务器之间网络带宽的压力，它是在map结束后在每台服务器中都算出一个值，再传到shuffle中。适合于求和等每台服务器算出的值对最后结果没有影响的业务中，但是像求平均值等功能会带来误差所以不能使用。Combiner会在map结束后，shuffle开始前进行执行，package com.it18zhang.day05.flow;imp

2017-07-16 23:42:31 600

原创多个MR一起执行的Driver代码

package com.it18zhang.day05.flow5;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.JobConf;import org.apache.

2017-07-16 23:32:22 464

原创 MapReduce 只有Map阶段，写出到pc端

package ProOrder2;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileReader;import java.io.IOException;import java.io.InputStreamReader;import java.util.HashMap;import

2017-07-16 23:29:36 1558

原创 MapReduce 类的封装思想

要有把需要的信息当成类的思想package ProvinceMR;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class BeanFlow implements Writabl

2017-07-16 23:25:47 503

原创时间格式转换

时间格式转换

2017-07-16 23:10:24 379

原创用eclipse在HADOOP中的一些系统指令操作

import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;impo

2017-07-09 12:46:27 213

weixin_38737789的博客