oaimm-CSDN博客

转载数据挖掘之Apriori算法详解

关联规则挖掘（Association rule mining）是数据挖掘中最活跃的研究方法之一，可以用来发现事情之间的联系，最早是为了发现超市交易数据库中不同的商品之间的关系。(啤酒与尿布)基本概念1、支持度的定义：support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数据记录的个数。例如：support({啤酒}-->{尿布}) = 啤酒和尿布

2015-10-28 00:08:02 5746

原创使用二分查找判断IP地域区间测试

package hello;import java.util.*;public class datatest {public static void main(String[] args) throws InterruptedException {final HashMap map = new HashMap();final String DELIMIT

2015-01-28 16:14:45 1927

转载【转】JAVA super() this（）

【转】JAVA super() this（）详解 (2010-11-24 23:25:41)转载▼标签：杂谈分类：笔试面试1．什么是super？什么是this？　　super关键字表示超（父）类的意思。this变量代表对象本身。　　2．使用super&this调用成员变量和方法　　可以使用

2014-10-14 17:50:15 676

转载 http://blog.yufeng.info/archives/2456

Linux Used内存到底哪里去了？January 19th, 2013Yu FengLeave a commentGo to comments原创文章，转载请注明：转载自系统技术非业余研究本文链接地址: Linux Used内存到底哪里去了？前几天纯上同学问了一个问题：我ps aux看到的RSS内存只有不到30M

2014-09-18 11:37:20 729

原创 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

Total MapReduce jobs = 114/08/24 20:29:11 WARN conf.Configuration: mapred.max.split.size is deprecated. Instead, use mapreduce.input.fileinputformat.split.maxsize14/08/24 20:29:11 WARN con

2014-08-26 14:03:08 10412

转载批量改文件或文件名

1、删除所有的 .bak 后缀：rename 's/\.bak$//' *.bak2、把 .jpe 文件后缀修改为 .jpg：rename 's/\.jpe$/\.jpg/' *.jpe3、把所有文件的文件名改为小写：rename 'y/A-Z/a-z/' *4、将 abcd.jpg 重命名为 abcd_efg.jpg：for var in *.jpg; d

2014-08-14 18:05:22 637

原创 HA

http://hadoop.apache.org/docs/r2.0.3-alpha/hadoop-yarn/hadoop-yarn-site/HDFSHighAvailabilityWithQJM.html

2014-08-01 14:38:37 5493

原创 neicun

OOM从进程入手：HADOOP 5个守护进程，HADOOP_HAPSIZE 参数设置每个守护进程的内存大小，hadoop_namemode_opt 存储每个块的索引信息，既然是name的还有个secondarynode_opt。再说说MAP和reduceMR任务分配是根据Containers分配，数量由CPU core+内存来确定，mapred.taskacker

2014-05-28 18:43:24 990

转载 hadoop安装

一、安装Hadoop 自己使用的软件版本是hadoop-1.0.3，比较早的一个版本，可以去hadoop的官方网站去下载。在安装hadoop以前首先要设置系统环境：安装java-1.6版本，之前自己安装的java-1.7，但是没有成功，不晓得是不是java版本的缘故；无论如何，这次自己选择了比较保守的方案，从oracle官方注册后下载jdk-6u45-linux-i586.bin

2014-05-15 09:49:02 616

原创 yarn is running beyond physical memory limits 问题解决

URL:http://I149-43:8005/taskdetails.jsp?jobid=job_1397098636321_27548&tipid=task_1397098636321_27548_r_000016-----Diagnostic Messages for this Task:Container [pid=7830,containerID=container_13

2014-05-08 13:22:00 33332 3

原创 hive bug

use dw;ALTER TABLE DWS_SELLER_DELIVERY_STAT_D DROP PARTITION(DT<'TIMEPROCESS(${DATE},1)');

2014-04-24 14:12:00 598

转载代理模式NB理解

3，代理模式一般涉及到的角色有：抽象角色：声明真实对象和代理对象的共同接口；代理角色：代理对象角色内部含有对真实对象的引用，从而可以操作真实对象，同时代理对象提供与真实对象相同的接口以便在任何时刻都能代替真实对象。同时，代理对象可以在执行真实对象操作时，附加其他的操作，相当于对真实对象进行封装。真实角色：代理角色所代表的真实对象，是我们最终要引用的对象。4，应用

2014-04-02 18:18:28 695

转载 Hive中小表与大表关联(join)的性能分析

Hive中小表与大表关联(join)的性能分析标签： hive 大小表关联 join 杂谈分类： Hadoop Hive经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条

2014-04-01 18:37:22 1371

转载笛卡尔积

引言在前篇文章中(SQL查询入门（上篇),我对数据库查询的基本概念以及单表查询做了详细的解释，本篇文章中，主要说明SQL中的各种连接以及使用范围，以及更进一步的解释关系代数法和关系演算法对在同一条查询的不同思路。多表连接简介在关系数据库中，一个查询往往会涉及多个表，因为很少有数据库只有一个表，而如果大多查询只涉及到一个表的，那么那个表也往往低于第三范式，存在大量冗余和异常。

2014-04-01 18:25:22 10989

转载图解SQL的inner join、left join、right join、full outer join、union、union all的区别

图解SQL的inner join、left join、right join、full outer join、union、union all的区别对于SQL的Join，在学习起来可能是比较乱的。我们知道，SQL的Join语法有很多inner的，有outer的，有left的，有时候，对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章,通

2014-03-28 10:44:50 606

转载 JAVA 设计模式之——动态代理

JAVA 设计模式之——动态代理设计模式JavaSpringAOPC 终于把动态代理的视频看完了。那视频长的可谓“浩浩汤汤，横无际涯”。不过马士兵老师将的还不错。很多细节问题可以先不去深究，先来看看脉络。所谓动态代理，即DynamicProxy。现在有一个接口Moveable，里面有个move方法，任何可移动的物体都可以继承它。Jav

2014-03-15 12:47:01 531

转载 super()

class Person { public static void prt(String s) { System.out.println(s); } Person() { prt("A Person."); } Person(String name) { prt("A pers

2014-03-13 20:23:19 546

转载 HIVE lateral view

HIVE lateral view博客分类： Hive分享 Lateral View语法Sql代码 lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FROM baseTab

2014-03-13 17:32:43 594

转载 sell 从文件读取一行赋值给一个数组

读取一个文件，把每一行赋值给一个数组的变量，然后用for循环打印出来复制代码代码如下:#!/bin/shi=1SUM=`sed -n '$=' tmp.txt` #计算文件的总行数echo "$SUM"while read linedo arr[$i]="$line" i=`expr $i + 1`done echo "$i"

2014-03-13 15:33:35 2221

转载 Hive下的变量使用

Hive下的变量使用博客分类： HiveHive变量Hive的变量前面有一个命名空间，包括三个hiveconf，system，env，还有一个hivevar1. hiveconf的命名空间指的是hive-site.xml下面的配置变量值。2. system的命名空间是系统的变量，包括JVM的运行环境。3. env的命名空间，是指环境变量，

2014-03-13 15:20:37 844

原创 shell 有用的

# set up configurationssource benchmark.conf;if [ -e "$LOG_FILE" ]; then timestamp=`date "+%F-%R" --reference=$LOG_FILE` backupFile="$LOG_FILE.$timestamp" mv $LOG_FI

2014-03-12 17:43:12 644

转载 hive set

You need to use the special hiveconf for variable substitution. e.g.hive> set CURRENT_DATE='2012-09-16';hive> select * from foo where day >= '${hiveconf:CURRENT_DATE}'similarly, you could pass

2014-03-12 17:08:05 958

转载 Hive 内建操作符与函数开发

Hive 内建操作符与函数开发目录：初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理配套视频课程

2014-03-12 15:57:40 1635

原创 hive youhua

Currently, some relevant settings are:NameNode Heap Size: 4096mbDataNode maximum Java heap size: 4096mbHadoop maximum Java heap size: 4096mbJava Options for MapReduce tasks: 768mbset map

2014-03-11 13:15:07 597

转载 Java的23中设计模式

三、Java的23中设计模式从这一块开始，我们详细介绍Java中23种设计模式的概念，应用场景等情况，并结合他们的特点及设计模式的原则进行分析。1、工厂方法模式（Factory Method）工厂方法模式分为三种：11、普通工厂模式，就是建立一个工厂类，对实现了同一接口的一些类进行实例的创建。首先看下关系图：举例如下：（我们举一个发送邮件和短信的例子

2014-03-07 20:38:02 623

转载 mysql密码恢复

1．首先确认服务器出于安全的状态，也就是没有人能够任意地连接MySQL数据库。因为在重新设置MySQL的root密码的期间，MySQL数据库完全出于没有密码保护的状态下，其他的用户也可以任意地登录和修改MySQL的信息。可以采用将MySQL对外的端口封闭，并且停止Apache以及所有的用户进程的方法实现服务器的准安全状态。最安全的状态是到服务器的Console上面操作，并且

2014-03-04 14:53:57 576

转载 hive-site.xml for hive-0.12.0

原文地址：http://blog.yidooo.net/archives/apache-hive-installation.html安装前在安装Hive之前，请保证已经安装了Hadoop。Apache Hive安装及配置安装Mysql本文选用mysql作为Hive的metastore。帮助1

2014-03-04 14:11:00 2000

原创 vi

(1)ESC然后:100

2014-03-04 13:53:44 521

原创 linux内存清理

清理前内存使用情况 free -mecho 1 > /proc/sys/vm/drop_caches清理后内存使用情况 free -m 清理前内存使用情况 free -mecho 1 > /proc/sys/vm/drop_caches清理后内存使用情况 free -mdmidecode |grep -A16 "Memory De

2014-03-04 13:13:55 545

转载 HIVE 中内连接(JOIN ON)与LEFT SEMI JOIN查询结果不一致的分析

HIVE 中内连接(JOIN ON)与LEFT SEMI JOIN查询结果不一致的分析博客分类： hadoop 由于HIVE中都是等值连接，在JOIN使用的时候，有两种写法在理论上是可以达到相同的效果的，但是由于实际情况的不一样，子表中数据的差异导致结果也不太一样。写法一： Java代码 select

2014-02-28 20:20:47 758

转载 MapReduce执行过程

、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022

2014-02-28 19:19:11 670

原创 hive 常用命令

建表：create table b (id int,name string)row format DELIMITED FIELDS TERMINATED BY ','LINES TERMINATED BY '\n' STORED AS SEQUENCEFILE;load data local inpath '/tmp/test1' into table a;

2014-02-28 19:00:45 723

转载 hive join

原理hive执行引擎会将HQL“翻译”成为map-reduce任务，如果多张表使用同一列做join则将被翻译成一个reduce，否则将被翻译成多个map-reduce任务。eg：SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)将被翻译成1个map-reduce任

2014-02-28 18:38:26 543

oaimm的专栏