自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (10)
  • 收藏
  • 关注

原创 hive系列(4)--级联求和

一、业务需求已有表: 输出表:

2017-03-30 10:15:25 3667

原创 hive系列(3)---Transform

通过(2)可以看到自定义的udf使用起来还是不是很方便的,Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能 适合实现Hive中没有的功能又不想写UDF的情况。一、文件的采集json文件的上传 1、建表hive> create table t_json(line string) > row format delimited;2、上传文件load data local

2017-03-21 20:27:57 698

原创 hive系列(2)---自定义函数UDF

一、自定义UDF在hql中可以满足大部分的需求,但是可能还有部分特定的业务需要自己自定义函数来实现,下面来模拟实现: 1、表的建立: t_p0: jdbc:hive2://mini01:10000> desc t_p;+-----------+------------+----------+--+| col_name | data_type | comment |+---------

2017-03-21 20:26:54 706

原创 hive系列(1)

一、概述理解下hive整体流程: 二、Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) 2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。 3、Hive 中包含以下数据模型:DB、Table,External Table,Par

2017-03-21 11:28:52 887

原创 mapreduce系列(10)--自定义Inputformat

123

2017-03-20 19:42:46 1103 1

原创 mapreduce系列(9)--自定义OutputFormat

111111

2017-03-20 17:28:10 402

原创 mapreduce系列(8)--自定义GroupingComparator

一、概述GroupingComparator是在reduce阶段分组来使用的,由于reduce阶段,如果key相同的一组,只取第一个key作为key,迭代所有的values。如果reduce的key是自定义的bean,我们只需要bean里面的摸个属性相同就认为这样的key是相同的,这是我们就需要之定义GroupCoparator来“欺骗”reduce了。我们需要理清楚的还有map阶段你的几个自定

2017-03-20 15:59:21 2667

原创 mapreduce系列(7)--查找共同好友

一、概述A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些人两两之间有共同好友,及他俩的共同好友都是谁 比如:a-b : c ,e

2017-03-20 14:32:44 5244 2

原创 mapreduce系列(6)---倒排索引的建立

一、概述如我们有三个文件: a.txt,b.txt,c.txttian junli leihan meimeili leihan meimeili leihan meimeitian jungegejiejietian jungegejiejiegegejiejiehan meimeitian junhan meimeitian jun统计出没个词在每篇文章中出现的

2017-03-20 14:21:22 660

原创 maprecuce系列(5)——map端join算法实现

一、概述在(4)中我们很快的实现了join的功能,但是在实际的生产中,会有一个严重的问题,由于数据量比较大,最后的分区比如都根据hashpartion来处理,就会导致数据的倾斜,有的reduceTask就会工作量太大,有的工作量就会太小,其实,我们可以看到,maptask阶段的任务分配其实还是比较均匀的,所以如果能在map阶段,把所有的工作都给处理掉就好了,这样我们就会想到缓存,数据量不大的一张表缓

2017-03-19 22:37:23 539

原创 maprecuce系列(4)——reduce端join算法实现

一、需求1、如下订单表:id、date、pid、amount1001,20160710,P0001,21002,20160710,P0001,31002,20170710,P0002,31001,20160710,P0001,21002,20140710,P0003,31003,20150710,P0002,32、如下商品信息表:id,panme,category_id,priceP000

2017-03-19 22:30:19 601

原创 mapreduce系列(3)----在window端远程提交mr程序运行

之前讲到windows上跑本地版的mapreduce程序,毫无问题, 但是更进一步,我现在想直接把我的idea上的程序运行在linunx集群上,这样,我的本地就相当于是mapreduce的一个客户端了。 沿着这个思路,我们直接把conf配置如下设置:conf.set("mapreduce.framework.name","yarn");conf.set("yarn.resourcemanage

2017-03-17 20:10:37 1629

原创 mapreduce系列(2)shuffle流程及Combiner

一、shuffle流程原理二、Combiner的使用package wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/** * combiner可以在

2017-03-17 15:28:29 678

原创 mapreduce系列(1)---入门案例深入分析以及切片源码简析

自定义一个mapreduce程序: FlowBean.java(实现hadoop的序列化)package lltj;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 自定义bean

2017-03-16 21:31:53 1473

原创 自定义shell脚本采集日志信息

一、模拟日志的动态产生在真实的环境中,日志是有nginx或者是tomcat等容器生成的,只需要采集的脚本或者是框架如flume、logstack等。 在本次测试中,采取log4j动态生成来模拟真实环境。 GenerateLog.javapackage log;import org.apache.log4j.LogManager;import org.apache.log4j.Logger;i

2017-03-16 15:41:19 4134

原创 hdfs回顾总结(3)---使用hadoopRpc模拟namenode元数据的查询

RPC的原理可以参考之前的博客自定义rpc的实现,本文做的仅仅是hadooprpc的简单调用来模拟实现namenode元数据的业务管理。一、protocol约定(接口规范)ClientNamenodeProtocol.javapackage HadoopRpc.protocol;/** * Created by tianjun on 2017/3/16 0016. */public inter

2017-03-16 10:14:00 346

原创 hdfs回顾总结(2)

基础的流式上传和下载以及block的获取package hdfs;import org.apache.commons.io.IOUtils;import org.apache.commons.lang.ArrayUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.

2017-03-15 22:17:17 269

原创 hdfs回顾总结(1)

由于笔者是在windows下idea的IDE开发,虽然每次都可以把程序提交到linux集群运行,但是对于查看业务,以及深入学习框架原理基本上不好使,所以想办法能让hadoop在windows上运行时最佳的。 沿着这个思路,可以到官网下载源码进行windows版的编译,这个这里就不再累述。(可以直接到网上找个windows版的) 之后就是在windows的环境中制定环境变量和path路径。 1、

2017-03-15 11:31:24 300

WPF_usbPiano钢琴

基于MIDI键盘开发的钢琴软件

2015-06-04

高一凡数据结构源码

高一凡数据结构源码 高一凡数据结构源码 高一凡数据结构源码

2015-06-04

高一凡数据结构

严奶奶数据结构具体实现高一凡清晰版,清华版数据结构,十分有必要

2015-06-04

MSChart控件的使用说明

c#中的常见图表的开发,在asp.net,WPF,Winform中用的比较多的,不用你自己写代码实现,节约你不少时间只关心业务逻辑而不关心这个图表要如何去实现

2014-03-10

C# 读取USB外设消息(MIDI为例)

首先我们得了解在windows系统中获取消息的方式,我们不管搞不搞底层编程肯定都知道驱动这个概念(如果不知道百度或者谷歌去)外设的消息首先是发送到发现它的驱动上去,我们利用Windows API从驱动中把消息取出来就可以了,首先肯定我们想到的是去写个驱动,这个很对,但是如果你对通信或者是底层编程没啥基础,还是不要去浪费时间了,万幸的是万恶的微软一般的常用的工种USB的驱动都集成着有,所以不用去太话费时间了,我们只需要利用API读取就行了。

2013-11-19

c# USB外设消息的读取(MIDI为例)

首先我们得了解在windows系统中获取消息的方式,我们不管搞不搞底层编程肯定都知道驱动这个概念(如果不知道百度或者谷歌去)外设的消息首先是发送到发现它的驱动上去,我们利用Windows API从驱动中把消息取出来就可以了,首先肯定我们想到的是去写个驱动,这个很对,但是如果你对通信或者是底层编程没啥基础,还是不要去浪费时间了,万幸的是万恶的微软一般的常用的工种USB的驱动都集成着有,所以不用去太话费时间了,我们只需要利用API读取就行了。

2013-11-19

基于vc++的邮件收发系统论文

电子邮件系统的工作原理及相关协议,并基于这些协议设计和开发了一个实用的邮件收发系统。用户运行软件后可以进行基本操作,邮件管理(邮件发送和邮件接收),用户管理(查询邮件和修改,查询、删除用户),用户可以发送或接收一个或多个带附件的邮件,也可以使用不同的SMTP或POP3服务器。

2013-04-24

基于VC++的邮件收发系统

电子邮件系统的工作原理及相关协议,并基于这些协议设计和开发了一个实用的邮件收发系统。用户运行软件后可以进行基本操作,邮件管理(邮件发送和邮件接收),用户管理(查询邮件和修改,查询、删除用户),用户可以发送或接收一个或多个带附件的邮件,也可以使用不同的SMTP或POP3服务器。

2013-04-24

GUN Make中文手册

linux学习和编程必备的基础知识,无论是在linux还是在Unix环境中,make都是一个非常重要的编译命令。不管是自己进行项目开发还是安装应用软件,我们都经常要用到make或make install。

2013-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除