lmc_wy-CSDN博客

原创临时数据转化为mysql表与现有表进行join

问题：系统自动产生一条数据：例如：11271851,13670999,22306155，需要与mysql中的表table1进行join查询，join条件为 column1 = 11271851（按,分隔后的列）解决方式：1，将数据转换为临时表：SELECT SUBSTRING_INDEX(SUBSTRING_INDEX(tempAdzone.adzone, ',', numbers.n)

2016-05-10 16:43:07 4374

转载 hadoop yarn resouce manager如何避免单点问题

yarn resouce manger是所有服务的入口，维护着集群的状态信息，当然不能容忍单点问题，解决方案：http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html

2015-06-29 22:01:22 1003

在HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入，删除，查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer？就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region，那么它是如何找到相应的RegionServer的？本文就是在研究源码的基础上揭

2014-03-14 17:31:16 905

转载 hbase性能调优

原文地址：http://kenwublog.com/hbase-performance-tuning因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（1

2014-03-12 16:16:36 804

原创 mapreduce过程

1、客户端提交，验证输入输出路径、输入数据分片，打包上传到jobtracker ... ...2、map过程： map输出会写到map端的跟jobID相关的temp目录（mapred.local.dir）下，但输出并非简单输出到磁盘； 1）首先输出到内存缓冲区（默认为100M，由io.sort.mb参数控制） 2）缓冲区使用率到阈值时（默认是0.8

2014-02-25 23:14:56 970

原创 ThreadLocal源码分析

ThreadLocal, 字面意义上就是本地Thread，然而，ThreadLocal并非Thread，而是Thread的局部变量，也许把它命名为ThreadLocalVariable更容易让人理解一些。 ThreadLocal用于存储一些线程相关的局部变量，使用非常方便，尤其是在一些已经成型的项目中增加新功能，需要从入口传递参数，并在后端取参处理的情景。看一些技术书，浅显的

2014-02-24 18:09:16 925

转载 hadoop作业调优参数整理及原理

转自：http://www.alidata.org/archives/1470 hadoop作业调优参数整理及原理1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buff

2013-07-25 12:54:23 697

原创 Java 动态代理

java 动态代理，通过反射机制构造类对象，然后实现不同类对象的方法调用利用jdk提供的动态代理接口接口：package lmc.test.com.cn;public interface Animal { public void speak(); public void run(); } 实现：package lmc.test.com.cn;

2013-06-27 10:17:30 688

原创 hbase数据增删改查

/***想了解hbase的基本用法，参照别人的例子，写了一些增删改查的代码，实际测试测试*测试环境：单机环境版本：hadoop1.1.2 hbase0.94.7*/package com.cn.lmc.hbase.basic;import java.io.IOException;import java.util.ArrayList;import java.util.L

2013-06-24 23:08:11 1611

转载 java volatile：正确使用 Volatile 变量

转载：http://www.ibm.com/developerworks/cn/java/j-jtp06197.html如有侵权：请告知，会立即删除 Java 语言中的 volatile 变量可以被看作是一种 “程度较轻的 synchronized”；与 synchronized 块相比，volatile 变量所需的编码较少，并且运行时开销也较少，但是它所能实现的功能也仅是 sync

2013-03-04 10:34:18 572

原创 JVM垃圾收集【一】

什么是垃圾？怎样确定垃圾？背景：垃圾收集并非java语言的伴生产物，垃圾回收比java更加久远，1960年MIT的Lisp是第一门真正使用内存冬天分配和垃圾收集的语言。经过50多年的发展，内存动态分配和回收技术发展到了相当成熟的阶段，除了java语言，很多其它计算机语言也使用动态内存分配与垃圾回收，例如ruby、python等。什么是内存垃圾，即那些不会被后续程序使

2012-10-22 21:47:48 683

转载 SyntaxError: Non-ASCII 错误

转自：http://blog.sina.com.cn/s/blog_8f27abe50100z5l6.htmlSyntaxError: Non-ASCII character ‘\xe5′ in file1import os2 3if

2012-10-22 19:28:36 1075

原创 ChainMapper和ChainReducer

hadoop api提供有ChainMapper和ChainReducer链式处理数据的接口，ChainMapper在一个map节点可以执行多个mapper逻辑，他们想unix管道一样，前一个map的输出作为后一个map的输入，知道最后一个map输出作为partition的输入，然后到reduce节点。而ChainReducer则不能从字面意义上理解为多个reduce连接起来处理数据，ChainR

2012-09-24 16:54:51 4713

原创 streaming方式的CombineFileInputFormat实现

hadoop版本问题严重，0.21的streaming方式无法正确使用combinefileinputformat，修改部分源码，以及实现CombineFileLineRecordReader。源码修改部分：hadoop-mapred-0.21.0.jar包里的org.apache.hadoop.mapred.lib.CombineFileInputFormat.java文件streami

2012-09-24 14:17:06 1931

原创 hadoop CombineFileInputFormat

hadoop在每一个数据储存节点启动一个map任务来处理数据，如果数据块太大，而map任务设定的分块大小小于数据块，那么一个数据块被拆分成多个数据块并拷贝到其它节点进行执行，这样有利于处理性能，特别是比较耗时的计算，希望数据分块较小；同时如果希望一个map节点处理较大的数据块，则可以设定mapred.min.split.size参数，将此参数调大，则可以让一个节点处理一个数据块；这是两种常见的需求

2012-09-06 14:33:20 4446 3

原创 java线程停止【四】

对于一些需要线程完成某些计算，并返回计算结果的需求，java新的api提供了Callable接口，该接口返回线程的计算结果，结果以Futrue对象形式，为了支持业务代码能够根据需要等待线程完成计算或者取消任务，Future接口的get函数接口支持timeout参数，即在timeout时间内返回结果，否则抛出TimeoutException异常；同时Future接口支持外围代码直接取消线程任务的功能

2012-09-04 23:02:28 1088

原创 Hadoop JAVA程序-files功能测试

之前一直用hadoop streaming方式，-file功能非常实用，可以动态上传文件，例如一些配置文件等。之后开始寻找java程序中的-file功能，费了很大功夫，一直没有测试通过。后来发现GenericOptionsParser能解析一些特有命令参数，并且做相应处理，例如：遇到-files参数时，将文件上传到mapper节点。经过测试，-files命令参数必须在hadoop jar后紧接

2012-08-31 18:29:07 2568

原创 java线程停止【三】

之前介绍了两种简单的结束线程任务的方法，对于线程相互协作工作的应用场景，例如生成消费者模式中，生产者决定要停止生产了，生产者应该告诉消费者“我已经停止生产了，你不要等啦”。如上一篇，生产者可以中断消费者线程，但生产者并不知道消费者此时的消费速度，生产者必须等到消费者全部消费完或者直接中断（通常不是一个好主意），而且生产者并不拥有消费者的所有权，所以并不是一种行之有效的方式；还有一种比较简单且容易实

2012-08-30 22:08:53 1212

原创 java线程停止【二】

本文内容来自《java并发编程实战》如上一篇java线程停止【一】，利用cancelled标志在一定场景可以停止线程任务，然而在某些场景，利用cancelled标志可能让任务陷入死循环。例如：生产者-消费者模式中，如果生产者生成速度超过消费者速度，那么生产者将阻塞，而此时消费者打算取消生成任务，消费者调用了生产者的cancel方法，消费者退出了，那么生产者永远也不会退出（因为生产者

2012-08-20 22:19:23 1343

原创闭锁CountDownLatch与栅栏CyclicBarrier

最近在看java并发相关的书籍，有一些同步的知识是平常不常用但是觉得会很有用的东西，这里参考别人的文章和自己的理解，将闭锁和栅栏的用途与区别简单描述一下。闭锁：一个同步辅助类，在完成一组正在其他线程中执行的操作之前，它允许一个或多个线程一直等待。即，一组线程等待某一事件发生，事件没有发生前，所有线程将阻塞等待；而事件发生后，所有线程将开始执行；闭锁最初处于封闭状态，当事件发生后闭锁将被

2012-08-14 22:34:53 11862

原创北京户口迁移记

背景： 2004-2008本科，2008年毕业后去一国有企业，解决了北京户口；2009年重回大学读研，将户口迁回大学，2012年研究生毕业就业，迁移户口，一共折腾了2周多时间，比较麻烦，希望自己的经历能给他人以参考。详细：本科毕业后就业于一家国有企业，工作半年后考研，于是2009年6月份需要将档案调回学校。公司（或者说是人才市场规定）要求辞职后才能调档案，于是辞职

2012-08-14 18:19:31 4080 2

原创 java线程可重入性

当线程请求一个由其它线程持有锁的对象时，该线程会阻塞，然而当线程请求由自己持有锁的对象时，该请求能够成功。 java线程中“重入”指的是获取对象锁的操作粒度锁线程，而非“调用”（pthread互斥体的获取操作是以“调用”为粒度）。重入的一种实现方法是为每个锁关联一个线程持有者和计数器，当计数器为0时表示该锁没有被任何线程持有，那么任何线程都可能获得该锁而调用相应的方法；当某一线程请求成功后，JVM

2012-07-29 20:49:35 1325

原创 shell 数组 eval工具等小技巧

shell这种脚本语言在某些环境中感觉跟高级语言相比，对一些高级数据结构支持很不够，写起来也极不方便，但是基本上你想要的，shell都能够支持，只是不是那么方便而已。一、shell数组 array=( value1 value2 value3 ... ) array="one two three" 取值：${array[1]} 删除：unset array[1

2012-07-27 18:34:06 1321

原创 hadoop map reduce 过程获取环境变量

hadoop任务执行过程中，在每一个map节点或者reduce节点能获取一下环境变量，利用这些变量可以为特殊的需求服务，例如：获取当前map节点处理的数据文件的路径。hadoop是java实现的，利用java可以很方便的获取相关环境变量，其内部包含在Context和MRJobConfig中（hadoop版本不一样，可能会有区别，我的hadoop是0.21）。举例：import

2012-07-24 12:54:37 4763

原创 shell脚本ssh到其它机器上执行命令

从运行脚本的机器ssh到其它机器上执行命令，并返回结果ssh root@192.168.18.1 "cd /home/luomingchun/test && sh test_shell.sh ./parameter-$para1“

2012-07-18 14:47:40 10532

原创 hadoop 任务超时自动结束任务

对于一些线上任务，如果在一定时间没有结束，下一时刻任务会启动，那么上一时刻的任务将变得没有意义，但是仍然会占用hadoop资源，所以需要程序检测并自动结束。示例：hadoop jar /opt/hadoop/mapred/contrib/streaming/hadoop-0.21.0-streaming.jar \ -D mapreduce.job.name="jobna

2012-07-17 20:11:49 2119

原创 hadoop streaming 多路输出

hadoop streaming工具很好的支持python 等各种脚本语言的map-reduce程序，开发方便高效，但是它没有直接支持多路输出（或者由于自己孤陋寡闻不知道），所以自己实现了一个多路输出的工具包，在hadoop streaming任务中添加简单配置即可实现多路输出。具体如下第一步：package test.lmc.com.cn;import org.apa

2012-05-03 17:24:29 4403

转载 python list 排序

转载 http://www.cnblogs.com/65702708/archive/2010/09/14/1826362.html因为项目需要对list按照不同字段分别排序，查了一下，python提供很好的支持，直接转载别人一篇文章，供自己或别人查询，版权归原博客主我们需要对List进行排序，Python提供了两个方法对给定的List L进行排序，方法1.用Lis

2012-05-03 17:03:23 2966

转载 hadoop错误INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1

原文：http://blog.csdn.net/xqy1522/article/details/7327818hadoop安装完成后，必须要用haddop namenode format格式化后，才能使用，如果重启机器在启动hadoop后，用hadoop fs -ls命令老是报 10/09/25 18:35:29 INFO ipc.Client: Retrying connec

2012-03-26 16:28:02 4051

转载 linux shell 快捷键

转自：http://blog.sina.com.cn/s/blog_7556be720100ryp2.htmlCtrl+p重复上一次命令Ctrl+a跳到第一个字符前Ctrl+x同上但再按一次会从新回到原位置Ctrl+b前移一个字符不删除字符情况下Ctrl+h删除前一个字符Ctrl+u删除提示符前的所有字符Ctrl+w同上Ctrl+d删除提示符后一个字符或

2012-03-15 17:34:13 3626

原创 python 写的hadoop小程序

Mapper：import sysline_number = 0tab_number = 0pv_number = 0clk_number = 0if_compressed_tested = 0if_compressed = 0#functions:def compressed_

2011-07-18 11:04:22 822

转载一位大学老师写给即将毕业的大学生的100条忠告

转自：http://blog.sina.com.cn/s/blog_4b71657f010006bo.html 又是一个六月，大学生们又将离开校园，曾经的一篇文章，与你们分享…… 一位大学老师写给即将毕业的大学生的100条忠告 作者：三峡在线 2006年9月5日，就在我国第22个教师节即将来临的前几天，我以“三峡在线”的笔名在我自己的网站与新浪博客中发表了一篇《一位大学老师写给大学新

2011-04-08 13:32:00 2535 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2009年研究生入学考试计算机统考大纲

计算机网络习题答案(谢希仁+第四版)

计算机网络专业考研模拟题

c/c++ API chm c/c++函数库

数据挖掘课件数据挖掘课件

配置ODBC——AIX系统

数据库课件中文第五版

空空如也