自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

刘瑞东的专栏

愿本人的一点点积累可以给广大大数据爱好者些许帮助

  • 博客(15)
  • 资源 (20)
  • 收藏
  • 关注

转载 mysql函数coalesce

很多人知道ISNULL函数,但是很少人知道Coalesce函数,人们会无意中使用到Coalesce函数,并且发现它比ISNULL更加强大,其实到目前为止,这个函数的确非常有用,本文主要讲解其中的一些基本使用:  首先看看联机丛书的简要定义: 返回其参数中第一个非空表达式 语法: COALESCE ( expression [ ,.

2013-09-17 17:41:17 1984

转载 一个关于MapJoin的测试用例

hive> create table lpx_mapjoin as   > SELECT '2012-04-17' as stat_date   >        ,b.admin_member_id   >        ,a.category_level2_id   >        ,b.keywords   >        ,sum(shownum

2013-09-16 18:55:41 1181

原创 Hive中的mapjoin

1: 有一个极小的表2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况

2013-09-16 18:52:58 2396

原创 SQL中的Case When Else End的用法

最近在对hive做优化时遇到了Case When Else End语法,所以就总结一下相关的知识给大家分享一下,具体的格式如下:条件判断语句update:update table  set 字段1=case         when 条件1 then 值1           when 条件2 then 值2          else 值3      

2013-09-16 15:31:17 33738

原创 HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonSe

2013-09-11 09:52:42 925

原创 Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询

1、搭建环境  新建JAVA项目,添加的包有:   有关Hadoop的hadoop-core-0.20.204.0.jar   有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序 Java代码  package com.wujintao.hbas

2013-09-11 09:52:20 1217

原创 Hive与Hbase使用域

Hive和Hbase有各自的不同特性:hive是高延迟,结构化和面向分析的,hbase是低延迟,非结构化和面向编程的。hive数据仓库在hadoop上时高延迟的,hive集成hbase就是为了使用hbase的一些特性,hive集成hbase可以有效利用habse数据库的存储特性,如行更新和列索引等,在集成的过程中注意维持hbase jar包的一致性。hive集成hbase需要在hive表和

2013-09-11 09:52:00 1597

原创 Java内存泄露的理解与解决

Java内存管理机制在C++语言中,如果需要动态分配一块内存,程序员需要负责这块内存的整个生命周期。从申请分配、到使用、再到最后的释放。这样的过程非常灵活,但是却十分繁琐,程序员很容易由于疏忽而忘记释放内存,从而导致内存的泄露。Java语言对内存管理做了自己的优化,这就是垃圾回收机制。Java的几乎所有内存对象都是在堆内存上分配(基本数据类型除外),然后由GC(garbage co

2013-09-11 09:51:59 700

转载 为什么要使用NoSQL

NoSQL在2010年风生水起,大大小小的Web站点在追求高性能高可靠性方面,不由自主都选择了NoSQL技术作为优先考虑的方面。NoSQL概念随着web2.0的快速发展,非关系型、分布式数据存储得到了快速的发展,它们不保证关系数据的ACID特性。NoSQL概念在2009年被提了出来。NoSQL最常见的解释是“non-relational”,“Not Only SQL”也被很多人接受。(“NoSQL

2013-09-11 09:50:10 765

转载 推荐系统中协同过滤算法实现分析

原创博客,欢迎转载,转载请注明:http://my.oschina.net/BreathL/blog/62519      最近研究Mahout比较多,特别是里面协同过滤算法;于是把协同过滤算法的这个实现思路与数据流程,总结了一下,以便以后对系统做优化时,有个清晰的思路,这样才能知道该如何优化且优化后数据亦能正确。     推荐中的协同过滤算法简单说明下:     首先,通

2013-09-10 16:55:59 1388

转载 基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms”

最近参加KDD Cup 2012比赛,选了track1,做微博推荐的,找了推荐相关的论文学习。“Item-Based Collaborative Filtering Recommendation Algorithms”这篇是推荐领域比较经典的论文,现在很多流行的推荐算法都是在这篇论文提出的算法的基础上进行改进的。        一、协同过滤算法描述        推荐系统应用数据分

2013-09-10 16:55:43 1130

转载 Weka -- 聚类算法之K-means

聚类分析中的“类”(cluster)和分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。 K均值算法首先随机的指定K个簇中心。然后:1)将每个实例分配到距它最近的簇中心,得到K

2013-09-10 16:53:13 6963

转载 深入推荐引擎相关算法 - 协同过滤

本文转载:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.htmlMahout构建:http://www.ibm.com/developerworks/cn/java/j-lo-mahout/集体智慧和协同过滤什么是集体智慧    集体智慧 (Collective

2013-09-10 16:52:55 1049

转载 hbase MapReduce程序样例入门

1、先看一个标准的hbase作为数据读取源和输出源的样例:View Code JAVA12345678Configuration conf = HBaseConfiguration.create();Job job = new Job(conf, "job name ");job.setJarByClass(test.

2013-09-09 15:54:40 1136

转载 HBase MapReduce实例分析之三

跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将介绍HBase下 MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考 "第一个MapReduce应用" 这篇文章来建立基本概念。一、Java代码package hbase;

2013-09-09 15:50:53 2282

pig学习笔记

这是学习pig的极好学习资料总结了很多知识,通俗易懂

2012-12-13

Carrot2聚类工具简介

这是一个学习Carrot2的极好的书籍,通俗易懂

2012-12-13

实例教程1小时学会Python

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

Python入门教程

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

Python脚本入门学习经典手册

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

debug详解.docx

这是一款详细介绍eclipse中如何进行debug的文档,深入细致的阐述了如何用它来查找bug以及进行修改,程序员必备

2012-07-24

Linux命令及其使用详解.docx

Linux命令及其使用详解里面讲解了linux系统中常用命令,细致易懂,超强的详解是我极力推荐的

2012-07-24

hibernate学习超强知识点荟萃

这是超强的学习笔记,包学包会,里面涵盖了hibernate的所有知识点,深入浅出

2012-07-24

组合数学书答案1

组合数学书答案,这是一个好资料快收藏啊,晚了就没有了,学计算机的快点啊。

2012-03-28

组合数学书答案

组合数学书答案,这是一个好资料快收藏啊,晚了就没有了,学计算机的快点啊。

2012-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除