2013年09月_stevie

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 mysql函数coalesce

很多人知道ISNULL函数，但是很少人知道Coalesce函数，人们会无意中使用到Coalesce函数，并且发现它比ISNULL更加强大，其实到目前为止，这个函数的确非常有用，本文主要讲解其中的一些基本使用：首先看看联机丛书的简要定义：返回其参数中第一个非空表达式语法： COALESCE ( expression [ ,.

2013-09-17 17:41:17 1984

转载一个关于MapJoin的测试用例

hive> create table lpx_mapjoin as > SELECT '2012-04-17' as stat_date > ,b.admin_member_id > ,a.category_level2_id > ,b.keywords > ,sum(shownum

2013-09-16 18:55:41 1181

原创 Hive中的mapjoin

1: 有一个极小的表2: 需要做不等值join操作（a.x 这种操作如果直接使用join的话语法不支持不等于操作，hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积，数据异常增大，速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理，MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况

2013-09-16 18:52:58 2396

原创 SQL中的Case When Else End的用法

最近在对hive做优化时遇到了Case When Else End语法，所以就总结一下相关的知识给大家分享一下，具体的格式如下：条件判断语句update：update table set 字段1=case when 条件1 then 值1 when 条件2 then 值2 else 值3

2013-09-16 15:31:17 33738

原创 HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonSe

2013-09-11 09:52:42 925

原创 Java操作Hbase进行建表、删表以及对数据进行增删改查，条件查询

1、搭建环境新建JAVA项目，添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序 Java代码 package com.wujintao.hbas

2013-09-11 09:52:20 1217

原创 Hive与Hbase使用域

Hive和Hbase有各自的不同特性：hive是高延迟，结构化和面向分析的，hbase是低延迟，非结构化和面向编程的。hive数据仓库在hadoop上时高延迟的，hive集成hbase就是为了使用hbase的一些特性，hive集成hbase可以有效利用habse数据库的存储特性，如行更新和列索引等，在集成的过程中注意维持hbase jar包的一致性。hive集成hbase需要在hive表和

2013-09-11 09:52:00 1597

原创 Java内存泄露的理解与解决

Java内存管理机制在C++语言中，如果需要动态分配一块内存，程序员需要负责这块内存的整个生命周期。从申请分配、到使用、再到最后的释放。这样的过程非常灵活，但是却十分繁琐，程序员很容易由于疏忽而忘记释放内存，从而导致内存的泄露。Java语言对内存管理做了自己的优化，这就是垃圾回收机制。Java的几乎所有内存对象都是在堆内存上分配（基本数据类型除外），然后由GC（garbage co

2013-09-11 09:51:59 700

NoSQL在2010年风生水起，大大小小的Web站点在追求高性能高可靠性方面，不由自主都选择了NoSQL技术作为优先考虑的方面。NoSQL概念随着web2.0的快速发展，非关系型、分布式数据存储得到了快速的发展，它们不保证关系数据的ACID特性。NoSQL概念在2009年被提了出来。NoSQL最常见的解释是“non-relational”，“Not Only SQL”也被很多人接受。（“NoSQL

2013-09-11 09:50:10 765

转载推荐系统中协同过滤算法实现分析

原创博客，欢迎转载，转载请注明：http://my.oschina.net/BreathL/blog/62519 最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通

2013-09-10 16:55:59 1388

转载基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms”

最近参加KDD Cup 2012比赛，选了track1，做微博推荐的，找了推荐相关的论文学习。“Item-Based Collaborative Filtering Recommendation Algorithms”这篇是推荐领域比较经典的论文，现在很多流行的推荐算法都是在这篇论文提出的算法的基础上进行改进的。一、协同过滤算法描述推荐系统应用数据分

2013-09-10 16:55:43 1130

转载 Weka -- 聚类算法之K-means

聚类分析中的“类”（cluster）和分类的“类”（class）是不同的，对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近；而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。 K均值算法首先随机的指定K个簇中心。然后：1)将每个实例分配到距它最近的簇中心，得到K

2013-09-10 16:53:13 6963

转载深入推荐引擎相关算法 - 协同过滤

本文转载：http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.htmlMahout构建：http://www.ibm.com/developerworks/cn/java/j-lo-mahout/集体智慧和协同过滤什么是集体智慧集体智慧 (Collective

2013-09-10 16:52:55 1049

转载 hbase MapReduce程序样例入门

1、先看一个标准的hbase作为数据读取源和输出源的样例：View Code JAVA12345678Configuration conf = HBaseConfiguration.create();Job job = new Job(conf, "job name ");job.setJarByClass(test.

2013-09-09 15:54:40 1136

转载 HBase MapReduce实例分析之三

跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便，本文将介绍HBase下 MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解，如果你是初次接触Hadoop MapReduce编程，可以参考 "第一个MapReduce应用" 这篇文章来建立基本概念。一、Java代码package hbase;

2013-09-09 15:50:53 2282