自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 资源 (9)
  • 收藏
  • 关注

原创 临时数据转化为mysql表与现有表进行join

问题:系统自动产生一条数据:例如:11271851,13670999,22306155, 需要与mysql中的表table1进行join查询,join条件为 column1 = 11271851(按,分隔后的列)解决方式:1,将数据转换为临时表:SELECT SUBSTRING_INDEX(SUBSTRING_INDEX(tempAdzone.adzone, ',', numbers.n)

2016-05-10 16:43:07 4259

转载 hadoop yarn resouce manager如何避免单点问题

yarn resouce manger是所有服务的入口,维护着集群的状态信息,当然不能容忍单点问题,解决方案:http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html

2015-06-29 22:01:22 919

转载 HBase -ROOT-和.META.表结构

在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭

2014-03-14 17:31:16 827

转载 hbase性能调优

原文地址:http://kenwublog.com/hbase-performance-tuning因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(1

2014-03-12 16:16:36 754

原创 mapreduce过程

1、客户端提交,验证输入输出路径、输入数据分片,打包上传到jobtracker ... ...2、map过程:      map输出会写到map端的跟jobID相关的temp目录(mapred.local.dir)下,但输出并非简单输出到磁盘;     1)首先输出到内存缓冲区(默认为100M,由io.sort.mb参数控制)     2)缓冲区使用率到阈值时(默认是0.8

2014-02-25 23:14:56 885

原创 ThreadLocal源码分析

ThreadLocal, 字面意义上就是本地Thread,然而,ThreadLocal并非Thread,而是Thread的局部变量,也许把它命名为ThreadLocalVariable更容易让人理解一些。    ThreadLocal用于存储一些线程相关的局部变量,使用非常方便,尤其是在一些已经成型的项目中增加新功能,需要从入口传递参数,并在后端取参处理的情景。    看一些技术书,浅显的

2014-02-24 18:09:16 877

转载 hadoop作业调优参数整理及原理

转自:http://www.alidata.org/archives/1470 hadoop作业调优参数整理及原理1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buff

2013-07-25 12:54:23 656

原创 Java 动态代理

java 动态代理,通过反射机制构造类对象,然后实现不同类对象的方法调用利用jdk提供的动态代理接口 接口:package lmc.test.com.cn;public interface Animal { public void speak(); public void run(); } 实现:package lmc.test.com.cn;

2013-06-27 10:17:30 648

原创 hbase数据增删改查

/***想了解hbase的基本用法,参照别人的例子,写了一些增删改查的代码,实际测试测试*测试环境:单机环境 版本:hadoop1.1.2 hbase0.94.7*/package com.cn.lmc.hbase.basic;import java.io.IOException;import java.util.ArrayList;import java.util.L

2013-06-24 23:08:11 1532

转载 java volatile:正确使用 Volatile 变量

转载:http://www.ibm.com/developerworks/cn/java/j-jtp06197.html如有侵权:请告知,会立即删除  Java 语言中的 volatile 变量可以被看作是一种 “程度较轻的 synchronized”;与 synchronized 块相比,volatile 变量所需的编码较少,并且运行时开销也较少,但是它所能实现的功能也仅是 sync

2013-03-04 10:34:18 525

原创 JVM垃圾收集【一】

什么是垃圾?怎样确定垃圾?    背景:垃圾收集并非java语言的伴生产物,垃圾回收比java更加久远,1960年MIT的Lisp是第一门真正使用内存冬天分配和垃圾收集的语言。经过50多年的发展,内存动态分配和回收技术发展到了相当成熟的阶段,除了java语言,很多其它计算机语言也使用动态内存分配与垃圾回收,例如ruby、python等。    什么是内存垃圾,即那些不会被后续程序使

2012-10-22 21:47:48 614

转载 SyntaxError: Non-ASCII 错误

转自:http://blog.sina.com.cn/s/blog_8f27abe50100z5l6.htmlSyntaxError: Non-ASCII character ‘\xe5′ in file1import os2 3if

2012-10-22 19:28:36 967

原创 ChainMapper和ChainReducer

hadoop api提供有ChainMapper和ChainReducer链式处理数据的接口,ChainMapper在一个map节点可以执行多个mapper逻辑,他们想unix管道一样,前一个map的输出作为后一个map的输入,知道最后一个map输出作为partition的输入,然后到reduce节点。而ChainReducer则不能从字面意义上理解为多个reduce连接起来处理数据,ChainR

2012-09-24 16:54:51 4654 10

原创 streaming方式的CombineFileInputFormat实现

hadoop版本问题严重,0.21的streaming方式无法正确使用combinefileinputformat,修改部分源码,以及实现CombineFileLineRecordReader。源码修改部分:hadoop-mapred-0.21.0.jar包里的org.apache.hadoop.mapred.lib.CombineFileInputFormat.java文件streami

2012-09-24 14:17:06 1873

原创 hadoop CombineFileInputFormat

hadoop在每一个数据储存节点启动一个map任务来处理数据,如果数据块太大,而map任务设定的分块大小小于数据块,那么一个数据块被拆分成多个数据块并拷贝到其它节点进行执行,这样有利于处理性能,特别是比较耗时的计算,希望数据分块较小;同时如果希望一个map节点处理较大的数据块,则可以设定mapred.min.split.size参数,将此参数调大,则可以让一个节点处理一个数据块;这是两种常见的需求

2012-09-06 14:33:20 4060 6

原创 java线程停止【四】

对于一些需要线程完成某些计算,并返回计算结果的需求,java新的api提供了Callable接口,该接口返回线程的计算结果,结果以Futrue对象形式,为了支持业务代码能够根据需要等待线程完成计算或者取消任务,Future接口的get函数接口支持timeout参数,即在timeout时间内返回结果,否则抛出TimeoutException异常;同时Future接口支持外围代码直接取消线程任务的功能

2012-09-04 23:02:28 1042

原创 Hadoop JAVA程序-files功能测试

之前一直用hadoop streaming方式,-file功能非常实用,可以动态上传文件,例如一些配置文件等。之后开始寻找java程序中的-file功能,费了很大功夫,一直没有测试通过。后来发现GenericOptionsParser能解析一些特有命令参数,并且做相应处理,例如:遇到-files参数时,将文件上传到mapper节点。经过测试,-files命令参数必须在hadoop jar后紧接

2012-08-31 18:29:07 2494

原创 java线程停止【三】

之前介绍了两种简单的结束线程任务的方法,对于线程相互协作工作的应用场景,例如生成消费者模式中,生产者决定要停止生产了,生产者应该告诉消费者“我已经停止生产了,你不要等啦”。如上一篇,生产者可以中断消费者线程,但生产者并不知道消费者此时的消费速度,生产者必须等到消费者全部消费完或者直接中断(通常不是一个好主意),而且生产者并不拥有消费者的所有权,所以并不是一种行之有效的方式;还有一种比较简单且容易实

2012-08-30 22:08:53 1150

原创 java线程停止【二】

本文内容来自《java并发编程实战》    如上一篇java线程停止【一】,利用cancelled标志在一定场景可以停止线程任务,然而在某些场景,利用cancelled标志可能让任务陷入死循环。例如:生产者-消费者模式中,如果生产者生成速度超过消费者速度,那么生产者将阻塞,而此时消费者打算取消生成任务,消费者调用了生产者的cancel方法,消费者退出了,那么生产者永远也不会退出(因为生产者

2012-08-20 22:19:23 1287

原创 闭锁CountDownLatch与栅栏CyclicBarrier

最近在看java并发相关的书籍,有一些同步的知识是平常不常用但是觉得会很有用的东西,这里参考别人的文章和自己的理解,将闭锁和栅栏的用途与区别简单描述一下。闭锁:一个同步辅助类,在完成一组正在其他线程中执行的操作之前,它允许一个或多个线程一直等待。即,一组线程等待某一事件发生,事件没有发生前,所有线程将阻塞等待;而事件发生后,所有线程将开始执行;闭锁最初处于封闭状态,当事件发生后闭锁将被

2012-08-14 22:34:53 11705 2

原创 北京户口迁移记

背景:    2004-2008本科,2008年毕业后去一国有企业,解决了北京户口;2009年重回大学读研,将户口迁回大学,2012年研究生毕业就业,迁移户口,一共折腾了2周多时间,比较麻烦,希望自己的经历能给他人以参考。详细:    本科毕业后就业于一家国有企业,工作半年后考研,于是2009年6月份需要将档案调回学校。公司(或者说是人才市场规定)要求辞职后才能调档案,于是辞职

2012-08-14 18:19:31 3909 3

原创 java线程可重入性

当线程请求一个由其它线程持有锁的对象时,该线程会阻塞,然而当线程请求由自己持有锁的对象时,该请求能够成功。 java线程中“重入”指的是获取对象锁的操作粒度锁线程,而非“调用”(pthread互斥体的获取操作是以“调用”为粒度)。重入的一种实现方法是为每个锁关联一个线程持有者和计数器,当计数器为0时表示该锁没有被任何线程持有,那么任何线程都可能获得该锁而调用相应的方法;当某一线程请求成功后,JVM

2012-07-29 20:49:35 1263

原创 shell 数组 eval工具等小技巧

shell这种脚本语言在某些环境中感觉跟高级语言相比,对一些高级数据结构支持很不够,写起来也极不方便,但是基本上你想要的,shell都能够支持,只是不是那么方便而已。一、shell数组   array=( value1 value2 value3 ... )   array="one two three"    取值:${array[1]}   删除:unset array[1

2012-07-27 18:34:06 1261

原创 hadoop map reduce 过程获取环境变量

hadoop任务执行过程中,在每一个map节点或者reduce节点能获取一下环境变量,利用这些变量可以为特殊的需求服务,例如:获取当前map节点处理的数据文件的路径。hadoop是java实现的,利用java可以很方便的获取相关环境变量,其内部包含在Context和MRJobConfig中(hadoop版本不一样,可能会有区别,我的hadoop是0.21)。举例:import

2012-07-24 12:54:37 4670

原创 shell脚本ssh到其它机器上执行命令

从运行脚本的机器ssh到其它机器上执行命令,并返回结果ssh root@192.168.18.1 "cd /home/luomingchun/test && sh test_shell.sh ./parameter-$para1“

2012-07-18 14:47:40 10379

原创 hadoop 任务超时自动结束任务

对于一些线上任务,如果在一定时间没有结束,下一时刻任务会启动,那么上一时刻的任务将变得没有意义,但是仍然会占用hadoop资源,所以需要程序检测并自动结束。示例:hadoop jar /opt/hadoop/mapred/contrib/streaming/hadoop-0.21.0-streaming.jar \  -D mapreduce.job.name="jobna

2012-07-17 20:11:49 2002

原创 hadoop streaming 多路输出

hadoop streaming工具很好的支持python 等各种脚本语言的map-reduce程序,开发方便高效,但是它没有直接支持多路输出(或者由于自己孤陋寡闻不知道),所以自己实现了一个多路输出的工具包,在hadoop streaming任务中添加简单配置即可实现多路输出。具体如下第一步:package test.lmc.com.cn;import org.apa

2012-05-03 17:24:29 4323 1

转载 python list 排序

转载 http://www.cnblogs.com/65702708/archive/2010/09/14/1826362.html因为项目需要对list按照不同字段分别排序,查了一下,python提供很好的支持,直接转载别人一篇文章,供自己或别人查询,版权归原博客主我们需要对List进行排序,Python提供了两个方法对给定的List L进行排序,方法1.用Lis

2012-05-03 17:03:23 2918 3

转载 hadoop错误INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1

原文:http://blog.csdn.net/xqy1522/article/details/7327818hadoop安装完成后,必须要用haddop namenode format格式化后,才能使用,如果重启机器在启动hadoop后,用hadoop fs -ls命令老是报 10/09/25 18:35:29 INFO ipc.Client: Retrying connec

2012-03-26 16:28:02 3948

转载 linux shell 快捷键

转自:http://blog.sina.com.cn/s/blog_7556be720100ryp2.htmlCtrl+p重复上一次命令Ctrl+a跳到第一个字符前Ctrl+x同上但再按一次会从新回到原位置Ctrl+b前移一个字符不删除字符情况下Ctrl+h删除前一个字符Ctrl+u删除提示符前的所有字符Ctrl+w同上Ctrl+d删除提示符后一个字符或

2012-03-15 17:34:13 3577

原创 python 写的hadoop小程序

Mapper:import sysline_number = 0tab_number = 0pv_number = 0clk_number = 0if_compressed_tested = 0if_compressed = 0#functions:def compressed_

2011-07-18 11:04:22 775

转载 一位大学老师写给即将毕业的大学生的100条忠告

<br />转自:http://blog.sina.com.cn/s/blog_4b71657f010006bo.html<br /> <br /> <br />又是一个六月,大学生们又将离开校园,曾经的一篇文章,与你们分享……<br /> <br />一位大学老师写给即将毕业的大学生的100条忠告<br /> <br />作者:三峡在线<br /> <br />2006年9月5日,就在我国第22个教师节即将来临的前几天,我以“三峡在线”的笔名在我自己的网站与新浪博客中发表了一篇《一位大学老师写给大学新

2011-04-08 13:32:00 2416 6

原创 Eclipse下配置hadoop环境

<br />hadoop集群搭建完成后,每次开发完map/reduce程序后,需要用打包,上传数据等步骤,然后命令行输入hadoop jar...等方式来运行,非常繁琐,用hadoop-eclipse插件能非常方便的进行开发的同时进行测试。<br /> <br />第一步:<br />         在hadoop发行包里去找到eclipse下的插件,例如.../hadoop-0.20.2/contrib/eclipse-plugin/目录下的hadoop-0.20.2-eclipse-plugin.ja

2011-03-16 15:43:00 2937 2

原创 Dynamic Proxy

package proxy;import java.lang.reflect.InvocationHandler;import java.lang.reflect.Method;import java.lang.reflect.Proxy;public class DProxy { public interface Subject { void request(String param); void response(String param); }

2011-03-14 15:17:00 625

原创 Observer Pattern(观察者模式)

<br />观察者模式应用比较广泛,写一个简单的示例,扩展了一下Head First上面例子的应用范围,进一步降低Observer与Subject之间的耦合度。<br />简单例子,直接给代码:<br />package test;public interface Subject { public void registerObserver(Observer observer); public void unRegisterObserver(Observer observer); publi

2011-03-09 17:24:00 792

原创 RMI入门小例子--代理模式

<br />不用rmic命令行的小例子,很简单,所以不作过多注释。给代码:<br />SERVER 端:<br /> <br />/**<br /> * <br /> */<br />package rmi.server;<br /><br />import java.rmi.Remote;<br />import java.rmi.RemoteException;<br /><br />/**<br /> * @author Administrator<br /> *<br

2011-01-07 10:24:00 1083 1

原创 Shell脚步中的递归函数以及遍历目录

<br />1 实现递归函数算阶乘:<br /> <br /> <br />#!/bin/bash<br />#fileName:function2.sh<br />factorial()<br />{<br />local i=$1;    #需要使用local关键字,否则返回结果始终为0,因为shell将默认的变量当作全局变量<br />if [ $i -eq 0 ]<br />then<br />  rtn=1<br />else<br />  factorial

2010-12-27 11:12:00 1271

原创 Hadoop HDFS 编程

HDFS是一个分布式文件系统,然而对于程序员来说,HDFS就是一个普通文件系统,Hadoop进行的底层封装,程序员按照相应的API来对HDFS上的文件操作,和对本地磁盘文件操作没有太多区别。但是最初接触时可能还是会碰到这样那样的问题。例如:获取FileSystem实例时会出现java.lang.NullPointerException    at org.apache.hadoop.conf.Configuration.get(Configuration.java:382)    at org.ap

2010-12-07 15:11:00 4783

原创 Hadoop 集群运行测试代码(Hadoop 权威指南天气数据示例)

今天将Hadoop 权威指南天气数据示例代码在hadoop集群上跑通,记录一下。之前在百度/Google上怎么也没有找到怎么样将自己的Map-Reduce方法跑在集群上的每一步都具体描述,经过一番痛苦的无头苍蝇式的摸索,成功了,心情不错...1准备天气预报数据(权威指南上的数据的简化版 5-9为year,15-19为temperature)aaaaa1990aaaaaa0039abbbbb1991bbbbbb0040accccc1992cccccc0040cddddd1993dddddd0043

2010-12-03 18:34:00 6183 3

转载 Apache Pig 安装配置

<br />引用:http://www.cnblogs.com/spork/archive/2009/12/29/1634761.html<br />Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。<br />Pig是一个客户端应用程序,就算你要在Hadoop集群上运

2010-11-30 17:20:00 2248

SQL语言艺术 SQL语言艺术 SQL语言艺术

SQL语言艺术SQL语言艺术SQL语言艺术SQL语言艺术SQL语言艺术SQL语言艺术SQL语言艺术SQL语言艺术SQL语言艺术

2010-07-30

c/c++ API chm c/c++函数库

c/c++ API 主要是c/c++函数 c/c++ API 主要是c/c++函数 c/c++ API 主要是c/c++函数 c/c++ API 主要是c/c++函数 c/c++ API 主要是c/c++函数 c/c++ API 主要是c/c++函数 C++ API chm C++ API chm C++ API chm C++ API chm C++ API chm C++ API chm

2010-05-03

计算机网络专业考研模拟题

计算机网络专业考研模拟题计算机网络专业考研模拟题计算机网络专业考研模拟题计算机网络专业考研模拟题

2008-12-16

计算机网络习题答案(谢希仁+第四版)

计算机网络习题答案(谢希仁+第四版)计算机网络习题答案(谢希仁+第四版)计算机网络习题答案(谢希仁+第四版)

2008-10-24

配置ODBC——AIX系统

配置ODBC——AIX系统配置ODBC——AIX系统配置ODBC——AIX系统配置ODBC——AIX系统

2008-10-24

数据挖掘课件数据挖掘课件

数据挖掘课件数据挖掘课件数据挖掘课件数据挖掘课件

2008-10-10

数据库课件中文第五版

数据库课件中文第五版数据库课件中文第五版

2008-10-10

2009年研究生入学考试计算机统考大纲

2009年研究生入学考试计算机统考大纲2009年研究生入学考试计算机统考大纲2009年研究生入学考试计算机统考大纲2009年研究生入学考试计算机统考大纲2009年研究生入学考试计算机统考大纲

2008-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除