2015年05月_小江_xiaojiang

12月 11月 10月 09月 06月 05月 04月

原创一种排序

题目来源：http://acm.nyist.net/JudgeOnline/problem.php?pid=8一种排序时间限制：3000 ms | 内存限制：65535 KB难度：3描述现在有很多长方形，每一个长方形都有一个编号，这个编号可以重复；还知道这个长方形的宽和长，编号、长、宽都是整数；现在要求按照一下方式排序（默认排序规则都是从小到大）

2015-05-24 15:50:44 412

原创括号配对问题

题目来源：http://acm.nyist.net/JudgeOnline/problem.php?pid=2描述现在，有一行括号序列，请你检查这行括号是否配对。输入第一行输入一个数N（0输出每组输入数据的输出占一行，如果该字符串中所含的括号是配对的，则输出Yes,如果不配对则输出No样例输入3[(])(])([[]()])样例输出

2015-05-24 15:31:38 413

原创抽象工厂模式

文章来源：软件秘籍----设计模式那点事抽象工厂模式（Abstract Factory Pattern）提供了一个接口，用于创建相关或者依赖对象的家族，而不需要指定具体实现类。抽象工厂模式允许客户使用抽象接口来创建一组相关的产品，客户类和工厂类分开，客户需要任何产品的时候，只需要向工厂请求即可，客户无须修改就可以获得新的产品。这样一来，客户就从具体产品中解耦。实例：肯德

2015-05-24 14:49:57 431

原创工厂方法模式

参考来源：软件秘籍----设计模式那点事所谓工厂方法模式(Factory Method Pattern)，就是定义一个创建产品对象的工厂接口，让子类决定实例化哪一种实例对象，也就是将实际创建实例对象的工作推迟到子类当中，核心工厂类不在负责具体产品的创建。工厂方法模式是对简单工厂模式进行了抽象。如此一来核心类就成为了一个抽象工厂角色，仅负责具体工厂子类必须实现的接口，这样进一步抽象化的好处是

2015-05-18 10:16:44 373

原创 Pig实战

参考来源：hadoop实战2为了能够更好的理解pig，下面给出一个实例，使用Grunt Shell方式进行数据分析。样例数据学生表（学号，姓名，性别，年龄，所在系）对应的数据类型Student(Sno:chararray,Sname:chararray,Ssex:chararray,Sage:int,Sdept:chararray)201000101：李勇：男：20：计

2015-05-17 21:29:08 451

原创 Hbase与wordcount的结合使用

文章来源：hadoop实战2程序首先从文件中收集数据，在shuffle完成之后进行统计并计算，最后将计算结果存储到hbase中。输入样例：hello hadoophello worldbye hadoopbye world输出样例：scan 'wordcount'ROW COLUMN+CELLbye column=content:count ,timesta

2015-05-17 11:21:36 842

原创 partioner编程

分区编程：1.根据业务需要，产生多个输出文件2.多个reduce任务在运行，提高整体job的运行效率package partition;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuratio

2015-05-16 09:39:33 536

原创求最大值和最大k个值

来源吴超7天视频1.求最大值package suanfa;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa

2015-05-16 09:36:17 732

原创数据分组

来源吴超7天视频输入样例3 33 23 12 22 11 1数据分组后为112 12 23 13 23 3输出样例，输出每组中最小值1 12 13 1package group;import java.io.DataInput;import java.io.DataOutput;

2015-05-16 09:30:19 427

原创自定义数据类型，实现数据排序

代码来源吴超7天视频输入样例：3 13 31 11 22 22 1输出样例：1 11 22 12 23 13 3package sort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.net.UR

2015-05-16 09:19:40 478

原创自定义数据类型，处理手机上网数据

数据和代码来源：吴超的7天视频数据类型如下图所示：1363157985066 1372623050300-FD-07-A4-72-B8:CMCC 120.196.100.82i02.c.aliimg.com 2427 248124681 2001363157995052 138265441015C-0E-8B-C7-F1-E0:CMCC 120.197.40

2015-05-16 09:12:13 506

原创多表关联

输入两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求输入数据中找出工厂名和地址名的对应关系，输出工厂名-地址名表输入样例：factory：factoryname addressedBeijing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1

2015-05-15 21:57:16 504

原创单表关联

实例中给出child-parent表，要求输出grandchild-grandparent表样例输入：file：child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip Terr

2015-05-15 21:52:21 443

原创数据排序

样例输入file1：232654321575665223file2：59562265092file3：26546样例输出：1 22 63 154 225 266 327 328 549 9210 65011 65412 75613 595614 65223packa

2015-05-15 21:49:57 404

原创数据去重

输入样例file1aabbcfile2abdd输出样例abcdpackage mapreduce.test;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;im

2015-05-15 21:46:36 423

原创单词计数

输入实例：hello worldhello hadoophello mr输出实例hadoop 1hello 3mr 1package mapreduce.test;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configu

2015-05-15 21:44:52 591

转载 SQL数据去重

转载地址：http://www.cnblogs.com/sunxiaonan/archive/2009/11/24/1609439.html例如： id name value 1 a pp 2 a pp 3

2015-05-14 15:08:33 408

原创二叉树遍历

根据如下二叉树，编写java程序。采用三种遍历算法实现，并输出结果先序遍历a b e f i c g h 中序遍历e b i f a g c h 后序遍历e i f b g h c a package test;import java.io.BufferedInputStream;import java.text.ParseException;imp

2015-05-14 14:41:42 371

原创字符串统计

现有字符串需要处理，请按顺序压缩字符串的个数输入样例：aaaabbbcccddd输出样例4a3b3c3dpackage test;import java.io.BufferedInputStream;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.

2015-05-14 14:33:23 503

原创时间段合并

现在有多个用户。任意的时间段有上网行为，需要将用户上网的时间段合并。样例输入数据用户id begintimeendtime1 9:30 9:502 9:10 9:201 9:40 10:002 9:00 9:151 10:10 10:20输出结果1 09:30 10:001 10:10 10:202 09:00 09:20

2015-05-14 14:30:31 3387

转载基于Hive的海量Web日志分析

1.背景1.1 黑马论坛日志，数据分为两部分组成，原来是一个大文件，是56GB；以后每天生成一个文件，大约是150-200MB之间；1.2 日志格式是apache common日志格式；1.3 分析一些核心指标，供运营决策者使用；1.4 开发该系统的目的是分了获取一些业务相关的指标，这些指标在第三方工具中无法获得的； 2.开发步骤2.1 把日志数据上传到HDFS中进行处

2015-05-06 22:21:22 3039

转载用Mahout构建图书推荐系统

转载出处：http://blog.fens.me/hadoop-mahout-recommend-book/前言本文是Mahout实现推荐系统的又一案例，用Mahout构建图书推荐系统。与之前的两篇文章，思路上面类似，侧重点在于图书的属性如何利用。本文的数据在自于Amazon网站，由爬虫抓取获得。目录项目背景需求分析数据说明算法模型程序开

2015-05-05 20:00:08 1065

转载用Mahout构建职位推荐引擎

转载出处：http://blog.fens.me/hadoop-mahout-recommend-job/前言随着大数据思想实施的落地，推荐系统也开始倍受关注。不光是电商，各种互联网应用都开始应用推荐系统，像搜索，社交网络，音乐，餐饮，地图服务等等。在以前，我们没有使用推荐算法的时候，我们是通过设置各种约束条件，匹配数据的自然属性呈现给用户，这种就是基于规则的系统。

2015-05-05 19:57:51 727

转载用Hadoop构建电影推荐系统

转载出处：http://blog.fens.me/hadoop-mapreduce-recommend/前言Netflix电影推荐的百万美金比赛，把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛，让企业界和学科界有了更深层次的技术碰撞。引发了各种网站“推荐”热，个性时代已经到来。目录推荐系统概述需求分析：推荐系统指标设计

2015-05-05 19:48:38 1194

原创电信运营商LBS应用，分析手机用户移动轨迹

转载： http://www.cnblogs.com/UUhome/p/4339582.html案例需求这是一个处理基站数据的场景。基站数据被抽象成两个文件，分别是以“NET”开头和“POS”开头的文件。一个是记录用户的移动位置，另一个是记录用户的上网数据。任务是从大量的这些数据中提取出用户的移动轨迹，也就是用户到了哪些基站，分别停留了多久。有了这些数据，就可以勾勒出用户的移动轨迹

2015-05-05 19:30:16 4340 1

转载用Maven构建Mahout项目

转载出处：http://blog.fens.me/hadoop-mahout-maven-eclipse/前言基于Hadoop的项目，不管是MapReduce开发，还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题，是困扰着每个程序员的噩梦。Java程序员，不仅要会写Java程序，还要会调linux，会配hadoop，启动hadoop，还要会自己运维。

2015-05-05 19:08:28 503

转载用Maven构建Hadoop项目

转载出处：http://blog.fens.me/hadoop-maven-eclipse/前言Hadoop的MapReduce环境是一个复杂的编程环境，所以我们要尽可能地简化构建MapReduce项目的过程。Maven是一个很不错的自动化项目构建工具，通过Maven来帮助我们从复杂的环境配置中解脱出来，从而标准化开发过程。所以，写MapReduce之前，让我们先花点时间把

2015-05-05 19:01:25 1234

转载 java集合类

转载地址： http://blog.csdn.net/zdwzzu2006/article/details/4567787Collections Framework集合框架是一个统一的架构,用来表示和操作集合.集合框架主要是由接口,抽象类和实现类构成.接口:蓝色；实现类：红色Collection|_____Set(HashSet)| |___

2015-05-05 09:33:53 394

转载基于MapReduce的海量Web日志分析

转载出处：http://blog.fens.me/hadoop-mapreduce-log-kpi/前言Web日志包含着网站最重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值等。一般中型的网站(10W的PV以上)，每天会产生1G以上Web日志文件。大型或超大型的网站，可能每小时就会产生10G的数据量。对于日志的这种规模的数据

2015-05-05 09:05:37 4458