2017年03月_tianjun2012

11月 10月 09月 08月 07月 06月 04月 03月 02月 01月

原创 hive系列（3）---Transform

通过（2）可以看到自定义的udf使用起来还是不是很方便的，Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能适合实现Hive中没有的功能又不想写UDF的情况。一、文件的采集json文件的上传 1、建表hive> create table t_json(line string) > row format delimited;2、上传文件load data local

2017-03-21 20:27:57 698

原创 hive系列（2）---自定义函数UDF

一、自定义UDF在hql中可以满足大部分的需求，但是可能还有部分特定的业务需要自己自定义函数来实现，下面来模拟实现： 1、表的建立: t_p0: jdbc:hive2://mini01:10000> desc t_p;+-----------+------------+----------+--+| col_name | data_type | comment |+---------

2017-03-21 20:26:54 706

原创 hive系列（1）

一、概述理解下hive整体流程：二、Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等） 2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。 3、Hive 中包含以下数据模型：DB、Table，External Table，Par

2017-03-21 11:28:52 887

原创 mapreduce系列（10）--自定义Inputformat

123

2017-03-20 19:42:46 1103 1

原创 mapreduce系列（9）--自定义OutputFormat

111111

2017-03-20 17:28:10 402

原创 mapreduce系列（8）--自定义GroupingComparator

一、概述GroupingComparator是在reduce阶段分组来使用的，由于reduce阶段，如果key相同的一组，只取第一个key作为key，迭代所有的values。如果reduce的key是自定义的bean，我们只需要bean里面的摸个属性相同就认为这样的key是相同的，这是我们就需要之定义GroupCoparator来“欺骗”reduce了。我们需要理清楚的还有map阶段你的几个自定

2017-03-20 15:59:21 2667

原创 mapreduce系列（7）--查找共同好友

一、概述A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些人两两之间有共同好友，及他俩的共同好友都是谁比如:a-b : c ,e

2017-03-20 14:32:44 5244 2

原创 mapreduce系列（6）---倒排索引的建立

一、概述如我们有三个文件： a.txt,b.txt,c.txttian junli leihan meimeili leihan meimeili leihan meimeitian jungegejiejietian jungegejiejiegegejiejiehan meimeitian junhan meimeitian jun统计出没个词在每篇文章中出现的

2017-03-20 14:21:22 660

原创 maprecuce系列（5）——map端join算法实现

一、概述在（4）中我们很快的实现了join的功能，但是在实际的生产中，会有一个严重的问题，由于数据量比较大，最后的分区比如都根据hashpartion来处理，就会导致数据的倾斜，有的reduceTask就会工作量太大，有的工作量就会太小，其实，我们可以看到，maptask阶段的任务分配其实还是比较均匀的，所以如果能在map阶段，把所有的工作都给处理掉就好了，这样我们就会想到缓存，数据量不大的一张表缓

2017-03-19 22:37:23 539

原创 maprecuce系列（4）——reduce端join算法实现

一、需求1、如下订单表：id、date、pid、amount1001,20160710,P0001,21002,20160710,P0001,31002,20170710,P0002,31001,20160710,P0001,21002,20140710,P0003,31003,20150710,P0002,32、如下商品信息表：id,panme,category_id,priceP000

2017-03-19 22:30:19 601

原创 mapreduce系列（3）----在window端远程提交mr程序运行

之前讲到windows上跑本地版的mapreduce程序，毫无问题，但是更进一步，我现在想直接把我的idea上的程序运行在linunx集群上，这样，我的本地就相当于是mapreduce的一个客户端了。沿着这个思路，我们直接把conf配置如下设置：conf.set("mapreduce.framework.name","yarn");conf.set("yarn.resourcemanage

2017-03-17 20:10:37 1629

原创 mapreduce系列（2）shuffle流程及Combiner

一、shuffle流程原理二、Combiner的使用package wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/** * combiner可以在

2017-03-17 15:28:29 678

原创 mapreduce系列（1）---入门案例深入分析以及切片源码简析

自定义一个mapreduce程序： FlowBean.java(实现hadoop的序列化）package lltj;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 自定义bean

2017-03-16 21:31:53 1473

原创自定义shell脚本采集日志信息

一、模拟日志的动态产生在真实的环境中，日志是有nginx或者是tomcat等容器生成的，只需要采集的脚本或者是框架如flume、logstack等。在本次测试中，采取log4j动态生成来模拟真实环境。 GenerateLog.javapackage log;import org.apache.log4j.LogManager;import org.apache.log4j.Logger;i

2017-03-16 15:41:19 4134

原创 hdfs回顾总结(3)---使用hadoopRpc模拟namenode元数据的查询

RPC的原理可以参考之前的博客自定义rpc的实现，本文做的仅仅是hadooprpc的简单调用来模拟实现namenode元数据的业务管理。一、protocol约定（接口规范）ClientNamenodeProtocol.javapackage HadoopRpc.protocol;/** * Created by tianjun on 2017/3/16 0016. */public inter

2017-03-16 10:14:00 346

原创 hdfs回顾总结（2）

基础的流式上传和下载以及block的获取package hdfs;import org.apache.commons.io.IOUtils;import org.apache.commons.lang.ArrayUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.

2017-03-15 22:17:17 269

原创 hdfs回顾总结（1）

由于笔者是在windows下idea的IDE开发，虽然每次都可以把程序提交到linux集群运行，但是对于查看业务，以及深入学习框架原理基本上不好使，所以想办法能让hadoop在windows上运行时最佳的。沿着这个思路，可以到官网下载源码进行windows版的编译，这个这里就不再累述。（可以直接到网上找个windows版的）之后就是在windows的环境中制定环境变量和path路径。 1、

2017-03-15 11:31:24 300

WPF_usbPiano钢琴

基于MIDI键盘开发的钢琴软件

2015-06-04

高一凡数据结构源码

高一凡数据结构源码高一凡数据结构源码高一凡数据结构源码

2015-06-04

高一凡数据结构

严奶奶数据结构具体实现高一凡清晰版，清华版数据结构，十分有必要

2015-06-04

MSChart控件的使用说明

c#中的常见图表的开发，在asp.net,WPF,Winform中用的比较多的，不用你自己写代码实现，节约你不少时间只关心业务逻辑而不关心这个图表要如何去实现

2014-03-10

C# 读取USB外设消息（MIDI为例）

首先我们得了解在windows系统中获取消息的方式，我们不管搞不搞底层编程肯定都知道驱动这个概念（如果不知道百度或者谷歌去）外设的消息首先是发送到发现它的驱动上去，我们利用Windows API从驱动中把消息取出来就可以了，首先肯定我们想到的是去写个驱动，这个很对，但是如果你对通信或者是底层编程没啥基础，还是不要去浪费时间了，万幸的是万恶的微软一般的常用的工种USB的驱动都集成着有，所以不用去太话费时间了，我们只需要利用API读取就行了。

2013-11-19

c# USB外设消息的读取（MIDI为例）

2013-11-19

基于vc++的邮件收发系统论文

电子邮件系统的工作原理及相关协议，并基于这些协议设计和开发了一个实用的邮件收发系统。用户运行软件后可以进行基本操作，邮件管理（邮件发送和邮件接收），用户管理（查询邮件和修改，查询、删除用户），用户可以发送或接收一个或多个带附件的邮件，也可以使用不同的SMTP或POP3服务器。

2013-04-24

基于VC++的邮件收发系统

2013-04-24

GUN Make中文手册

linux学习和编程必备的基础知识,无论是在linux还是在Unix环境中,make都是一个非常重要的编译命令。不管是自己进行项目开发还是安装应用软件,我们都经常要用到make或make install。

2013-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

tianjun2012的专栏

原创 hive系列（4）--级联求和

原创 hive系列（3）---Transform

原创 hive系列（2）---自定义函数UDF

原创 hive系列（1）

原创 mapreduce系列（10）--自定义Inputformat

原创 mapreduce系列（9）--自定义OutputFormat

原创 mapreduce系列（8）--自定义GroupingComparator

原创 mapreduce系列（7）--查找共同好友

原创 mapreduce系列（6）---倒排索引的建立

原创 maprecuce系列（5）——map端join算法实现

原创 maprecuce系列（4）——reduce端join算法实现

原创 mapreduce系列（3）----在window端远程提交mr程序运行

原创 mapreduce系列（2）shuffle流程及Combiner

原创 mapreduce系列（1）---入门案例深入分析以及切片源码简析

原创自定义shell脚本采集日志信息

原创 hdfs回顾总结(3)---使用hadoopRpc模拟namenode元数据的查询

原创 hdfs回顾总结（2）

原创 hdfs回顾总结（1）

WPF_usbPiano钢琴

高一凡数据结构源码

高一凡数据结构

MSChart控件的使用说明

C# 读取USB外设消息（MIDI为例）

c# USB外设消息的读取（MIDI为例）

基于vc++的邮件收发系统论文

基于VC++的邮件收发系统

GUN Make中文手册

空空如也