2016年10月_lijie_cq

12月 11月 10月 09月 08月 06月

原创 awk的详细用法demo

首先创建一个文件叫做test 内容为（hehe前面有几个空格）： hehe lijie1:one lijie2:two lijie3:three1.查找awk '/root/' ./testgrep root ./test2.默认查找分隔符[root@lijie hadoop]# cat ./test | awk '{print $1}'hehe3.自定义分隔符[root@lij

2016-10-31 23:41:54 501

原创 Scala基础语法笔记

1.Scala的数据类型：Byte 8位有符号补码整数。数值区间为 -128 到 127Short 16位有符号补码整数。数值区间为 -32768 到 32767Int 32位有符号补码整数。数值区间为 -2147483648 到 2147483647Long 64位有符号补码整数。数值区间为 -9223372036854775808

2016-10-27 23:08:56 374

原创 hive多表连接带where查询结果插入到新表的优化

在工作中我们经常需要加工表，可能join很多张表然后将最后的结果插入到一个新表里面，如果查询带where语句那么我们可以进行如下优化：例如有如下伪代码,将查询的结果插入APP_NEW表中：insert overwrite table APP_NEWselect a.x1, a.x2, b.x3, b.x4, b.x5, c.x6, c.

2016-10-27 21:44:00 4720

原创 hive表在join on上的过滤和在where上过滤的对比

当两张表A和B在join时，条件筛选放在表join时的on上面和放在where上面得到的结果是不一样的。如下创建两张表：A表结构以及数据：id name grade dept1 lijie1 100 102 lijie2 90 203 lijie3 60 104 lijie4 80 105 lijie5 7

2016-10-27 21:20:10 17279 3

原创 mr编程递归显示hdfs目录下所有文件

递归: 程序调用自身的编程技巧称为递归。用递归算法解决汉诺塔、阶乘等问题都很经典，一般我们查询系统中目录下的所有文件也会用到递归的思想。下面我们用java代码来实现打印本地指定路径下的所有文件：/** * 递归打印本地目录 * @param file */public static void printLocal(File file) { if (file.isDirectory(

2016-10-26 19:32:50 2275

原创 hive中构建dual虚表

刚接触到hive的时候想测试有些函数的功能，习惯性的用dual却报错，例如：hive> select 1+1 from dual;FAILED: SemanticException [Error 10001]: Line 1:16 Table not found 'dual'但是我们可以自己构造一个类似于oracle的dual虚表。1.首先创建一个lijie.txt,将X重定向到文件中echo

2016-10-25 21:30:21 17591 2

原创 sqoop增量导入且表无主键

之前写过一个sqoop增量导入的文章http://blog.csdn.net/qq_20641565/article/details/52763663，自己控制增量导入，但是那个架构需要表有主键值，但是一般在实际中有的表却没有主键只有增量字段而且数据量特别大，这样的情况就不能使用之前那篇文章写的方式自己控制增量同步数据了，可以用如下的方法解决。1.使用sqoop的增量导入；这里就不介绍了，网上有

2016-10-18 20:14:48 3352

原创 hive中的子查询改join操作

这些子查询在oracle和mysql等数据库中都能执行，但是在hive中却不支持，但是我们可以把这些查询语句改为join操作：-- 1.子查询select * from A a where a.update_time = (select min(b.update_time) from A b)-- 2.in操作select * from

2016-10-18 19:13:45 5619

原创 hive的row_number()、rank()和dense_rank()的区别以及具体使用

row_number()、rank()和dense_rank()这三个是hive内置的分析函数，下面我们来看看他们的区别和具体的使用案例。首先创建一个文件test：A,1B,3C,2D,3E,4F,5G,6然后创建hive表：create table test_rank(a string,b int) row format delimited fields terminated

2016-10-17 20:05:21 38434 4

hive 优化一. 查看执行计划：explain select * from lijie.test where id = '1';explain extended select * from lijie.test where id = '1';二. 本地化hive.exec.mode.local.auto=false; default三. 设置队列（选取资源丰富的队列）mapred.queue.n

2016-10-16 22:19:11 656

原创 Azkaban调度mapreduce任务demo

之前我的一篇博客是模拟日志收集到hdfs上面（详情见：http://blog.csdn.net/qq_20641565/article/details/52807776）以及Azkaban的安装（详情见：http://blog.csdn.net/qq_20641565/article/details/52814048），现在用java编写mapreduce程序通过Azkaban进行调度，编写四个简单

2016-10-14 16:15:00 5009 1

原创部署Azkaban任务调度器demo

今天在虚拟机上面配置了一个Azkaban的任务调度器，这是由Linkedin公司开源的一个大批量工作流任务调度器(任务量不大的话crontab和hadoop的jobController 结合起来也可以实现任务的调度)；下面我们来部署下Azkaban：1.需要下载三个包 azkaban-web-server-2.5.0.tar.gz azkaban-executor-server-2.5.0.t

2016-10-14 10:53:57 2570

原创 flume监控spoolDir日志到HDFS整个流程小Demo

今天做了一个flume监控spoolDir日志到HDFS整个流程的小Demo。流程: 1.编写java代码，随机生成用户ID号码，区县号码，乡镇号码(区县和乡镇号码用随机的三位字母表示)和个人总收入格式样例：779362a1-bf04-468a-91b6-a19d772f41fa####AFC####sfe####8091748。2.用一个线程循环执行,用Thread.sleep(100)来

2016-10-13 16:15:15 5136

原创 java的反射基础笔记

反射reflect 1.1 Class(描述类的类) 获得类对象的三种方式1.1.1 通过字符串的类名获取 Class c = Class.forName(“com.direct.Person”); 1.1.2 通过类.class来获取 Class c = Person.class; 1.1.3 通过对象.getClass()来获取 Pe

2016-10-12 20:30:47 352

原创 oracle子程序和程序包以及触发器

1. 子程序子程序的优点：模块化，可重用，可维护性，安全性 1.1 过程（存储过程） -- 声明过程 create or replace procedure pro_say_hello is name varchar2(20); begin name := '&name';

2016-10-12 20:21:01 582

原创 oracle的游标笔记

游标游标是一条SQL语句执行之后的结果状态信息 1.1 隐式游标当执行DML语句时，会自动创建隐式游标，包含 %FOUND：影响大于0条数据为true ， %NOTFOUND：影响0条数据为true ， %ROWCOUNT：影响数据的条数， %ISOPEN：是否打开，隐式游标始终为false隐式游标的名称叫做SQL declare

2016-10-12 20:15:07 298

原创 oracle的PLSQL基础

PL/SQL 1.1 PL/SQL中的类型 a）标量类型(数字，字符，日期，布尔) 类型名 SQL中的范围 PL/SQL中的范围 char 1…2000 1…32767 varchar2 1…4000 1…32767 raw

2016-10-12 20:11:51 357

原创 oracle基础笔记

表空间 – 创建普通表空间 create tablespace my_tbsp datafile ‘E:/app/Administrator/product/11.2.0/dbhome_1/oradata/sample/my_tbsp.dbf’ size 20M autoextend on next 50m maxsize 20480m extent management local;

2016-10-12 20:07:16 406

原创 java生产者与消费者经典案例小demo

经典生产者消费者问题: 场景: 1.模拟生产者生产电脑放到仓库里面，但是仓库只能存放100台电脑，仓库满了生产者等待消费者消费再生产。 2.消费者从仓库里面取出电脑，但是仓库中没电脑时等待生产者生产再取。 3.模拟3个生产者和3个消费者线程同时运行。程序结构如下： 1.仓库类package com.lijie.bean;/** * 仓库 * @author lijie * */p

2016-10-12 19:51:43 1184

原创正则表达式javascript小demo以及笔记

正则表达式笔记 [] 表示在括号中的字符任选一个 ^不包括口号中的值 {} 括号之前的字符重复指定次数 {5} 5次 {5,} 至少5次 {5,10} 5到10次 + {1,} 至少一次 * {0,} 任意次数 ? {0,1} 0或1次 a-z 取小写a-z A-Z 大写A-Z 0-9 数字0-9 \w [a-zA-Z0-9]

2016-10-12 19:14:41 516

原创 hive中order by、distribute by、sort by和cluster by的区别和联系

order byorder by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样，它只在一个reduce中进行所以数据量特别大的时候效率非常低。而且当设置：set hive.mapred.mode=strict的时候不指定limit，执行select会报错，如下：LIMIT must also be specified.sort bysort by 是单独在

2016-10-10 18:33:22 8566 3

原创 sqoop的--query工作中的实际的使用

需求：有一个需求，就是需要从hive通过sqoop导数据回oracle，但是导入过程需要用另外一张表记录导入过程，比如导入的时间、导入是否准备中或者运行中、成功或者失败，因为别人需要通过这个标志来触发一些处理。这里就可以用shell脚本结合sqoop的–query来实现。其中IS_FLAG :1为准备中 2为运行中 0为完成 -1为异常出错失败#!/bin/bashsource ExitCod

2016-10-10 16:55:10 12227 1

原创 hadoop自定义counter简单java Demo

1.hadoop的counter可以是用枚举和字符串两种方式定义枚举：//先定义枚举public static enum LOG_COUNTER{ BAD_RECORDS;}//使用counterCounter counter = context.getCounter(LOG_COUNTER.BAD_RECORDS);counter.increment(1);字符串Coun

2016-10-10 15:17:47 535

原创 03.shell字符串处理和输入输出

1.字符串截取如果字符串str=”abcdce”echo "${str:1:2}" -> "bc" //从第一个开始取两个echo "${str:1}" -> "bcdce" //从第一个开始取到最后echo "${str#*c}" -> "dce" //从左到右取第一个匹配到结尾echo "${str##*c}" -> "e"

2016-10-10 14:13:39 949

转载 hadoop的Group Comparator

最近看dadoop中关于辅助排序（SecondarySort）的实现，说到了三个东西要设置：1. partioner；2. Key Comparator；3. Group Comparator。前两个都比较容易理解，但是关于group的概念我一直理解不了，一，有了partioner，所有的key已经放到一个分区了，每个分区对应一个reducer，而且key也可以排序了，那么不是实现了整个数据集的全排

2016-10-09 21:46:15 1936

原创 hive的基本使用02

create external table hive_1( name string, age int ) row format delimited fields terminated by ‘,’ stored as textfile;load data [local] inpath ‘/../…txt’ [overwrite] into table hive_1;hi

2016-10-09 21:42:03 340

原创 hive的基本使用01

数据类型：普通：tinyint smalint int bigint boolean float double string timestamp binary 集合：struct map array建表：create table employees( name string, salary float, sub array<string>, de

2016-10-09 21:35:52 502

原创 hadoop使用java多文件上传简单demo

package com.lijie.multiplefileupload;import java.io.File;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apa

2016-10-09 21:12:16 672

原创 hadoop的InputFormat简单demo

1.序列化对象package com.lijie.inutformat;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class ScorePair implements Writ

2016-10-09 21:08:00 571

原创 hadoop的序列化简单demo

package com.lijie.hadoopxuliehua;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;public

2016-10-09 21:04:20 378

原创 java上传文件到hdfs简单demo

package com.lijie.uploadsingle;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;i

2016-10-09 21:03:17 5679 1

原创 java访问hdfs简单demo

代码如下package com.lijie.javaapivisit;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLoca

2016-10-09 21:01:15 1378

原创 worldcount程序java版本

程序如下package com.lijie.worldcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.

2016-10-09 20:57:53 581

原创合并hive仓库中小文件

使用lijie库下的test表做实验1.查看hdfs下该表的文件存储：hadoop dfs -ls /user/hive/warehouse/lijie.db/test结果如下： 2.模拟小文件insert into table test select * from test;上面语句执行多次3.合并insert overwrite table test select * from test;没

2016-10-09 20:35:27 1033

原创 sqoop增量导入问题

一. sqoop支持的两种增量导入 1.根据自增的id号 2.根据updateTime 这样增量更新会遇到一个数据重复的问题，比如我们每天增量更新昨天的数据（可以用cron或者oozie）都会把updateTime在昨天范围内的数据增量导入到hive仓库里面，如果我们源数据库中昨天之前的数据被更改，那么updateTime会被修改为昨天的时间，因为这条数据在之前就已经

2016-10-09 09:51:34 8799 2

Spring Boot 搭建以及集成 StringRedisTemplate

2017-08-16

IP城市对应表

IP城市对应表 IP 部分内容如下 1,3708713472.00,3708715007.00,"河南省","信阳市","联通","221.14.122.0","221.14.127.255" 2,3708649472.00,3708813311.00,"河南省",,"联通","221.13.128.0","221.15.255.255" 3,3720390656.00,3720391679.00,"河北省","邢台市","联通","221.192.168.0","221.192.171.255"

2017-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Spring Boot 搭建以及集成 StringRedisTemplate

IP城市对应表

教室借用软件 VB

hadoop面试葵花宝典

腾讯课堂主页 静态html模拟

java 局域网聊天工具

springMVC+spring+mybatis整合 大家共同进步

空空如也

腾讯课堂主页静态html模拟

springMVC+spring+mybatis整合大家共同进步