自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 资源 (2)
  • 收藏
  • 关注

转载 Java批处理写数据库的实例代码

Java写数据库时的批处理程序示例StringBuilder sUpdateSQL = new StringBuilder(80);  sUpdateSQL.append("UPDATE ");  sUpdateSQL.append("表名");  sUpdateSQL.append(" SET title=? WHERE username=? AND password=?");

2012-08-18 00:47:23 689

转载 Java中preparedStatement的错误使用

java中PreparedStatement的错误使用今天在翻看一个以前项目的代码的时候发现了一个对PreparedStatement的错误使用,为了避免自己以后犯类似的错误,特别记录一下!首先先看下面的增删改查的代码:public int insert(String sql) throws Exception {Logger.getLogger(this.getClass

2012-08-18 00:41:52 3628

转载 python下的MySQLdb使用

下载安装MySQLdb linux版本http://sourceforge.net/projects/mysql-python/ 下载,在安装是要先安装setuptools,然后在下载文件目录下,修改mysite.cfg,指定本地mysql的mysql-config文件的路径windows版本网上搜索到一个http://www.technicalbard.com/files/MyS

2012-08-17 22:38:06 414

转载 Hadoop OutputFormat浅析

在Hadoop中,OutputFormat和InputFormat是相对应的两个东西。相比于InputFormat,OutputFormat似乎没有那么多细节。InputFormat涉及到对输入数据的解析和划分,继而影响到Map任务的数目,以及Map任务的调度(见《Hadoop InputFormat浅析》)。而OutputFormat似乎像其字面意思那样,仅仅是完成对输出数据的格式化。对于输

2012-08-09 00:02:57 835

转载 Hadoop开发常用的InputFormat和OutputFormat

在用hadoop的streaming读数据时,如果输入是sequence file,如果用“-inputformat org.apache.hadoop.mapred.SequenceFileInputFormat”配置读的话,读入的数据显示的话为乱码,其实是因为读入的还是sequence file格式的,包括sequencefile的头信息在内.改为“inputformat org.apache

2012-08-08 23:59:28 1083

转载 Hadoop自定义RecordReader

系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值,每行的内容作为map的value值,默认的分隔符是回车和换行。现在要更改map对应的输入的值,key对应的文件的路径(或者是文件名),value对应的是文件的内容(content)。那么我们需要重写InputFormat和RecordReader,因为RecordReader是在InputFor

2012-08-08 23:57:45 1006

转载 Hadoop 自定义InputFormat实现自定义Split

上一篇文章中提到了如何进行RecordReader的重写,本篇文章就是来实现如何实现自定义split的大小要解决的需求:(1)一个文本中每一行都记录了一个文件的路径,(2)要求处理路径对应的文件,但是因为文件量比较大,所以想进行分布式处理(3)所以就对输入的文档进行预处理,读取前N行做为一个splits,但是没有实现,因为重写FileSplit不是太容易实现,就偷懒

2012-08-08 23:56:50 699

转载 Hadoop自定义InputFormat

接触hadoop一年多了,但是自己一直没有用hadoop写过什么程序。最近,由于项目需要,将一些文件转换成hadoop的MapFile。网上的例子基本是直接处理文本输入,自定义输入格式的见到两个,但是都是用的旧的API,用新API写的还没有,可能高手不屑于写这些。但是处理自定义输入是每个用hadoop的人都要学会才行的,因为不是每个人的输入都是文本文件。数据输入是hadoop的第一步,不能读自

2012-08-08 23:46:53 603

转载 Hadoop InputFormat浅析

在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:1、运行mapred程序;2、本次运行将生成一

2012-08-08 23:20:47 384

转载 Hadoop&MapReduce操作关系数据库(MySQL)

前以前帖子介绍,怎样读取文本数据源和多个数据源的合并:http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html这一个博客介绍一下MapReduce怎样读取关系数据库的数据,选择的关系数据库为MySql,因为它是开源的软件,所以大家用的比较多。以前上学的时候就没有用过开源的软件,直接用盗版,也相当与免费,且比开源好用,例如

2012-08-08 15:16:32 1208

转载 Java日期格式化类SimpleDateFormat

public class SimpleDateFormat extends DateFormatSimpleDateFormat 是一个以国别敏感的方式格式化和分析数据的具体类。 它允许格式化 (date -> text)、语法分析 (text -> date)和标准化。SimpleDateFormat 允许以为日期-时间格式化选择任何用户指定的方式启动。 但是,希望用DateFo

2012-08-08 14:05:47 608

转载 yum安装MySQL数据库

yum安装mysql很是方便,但安装好之后的问题却搞了半天。首先,安装mysql。yum list | grep mysql; 选择合适的版本,yum intall 该版本;yum list | grep mysql-server;选择合适的版本,yum intall 该版本。安装完成后,添加 mysqld 服务。/sbin/chkconfig –-add mysqld [在服

2012-08-08 11:56:17 493

转载 Python直接从命令行读参数

由来由于缺乏某python程序直接外部的API调用的支持,于是打算直接使用该python工具内部的api,通过几步设置好环境以后,该API可以调用并且成功。但是,发现调用应用的目标是错误的,在服务器端调用该api不能达到处理的目的,这个api应该在目标板端执行,也就是通过板子命令行执行。解决之道1. 板子缺乏相应的python支持,但好在是Ubuntu的系统,安装该

2012-08-07 00:10:11 1106

转载 Java字符编码

首先讲一下几种字符的编码方式:1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。上个世纪60年代,美国制定了

2012-08-06 10:56:00 542

转载 Java编码问题

Java与Unicode:  Java的class文件采用utf8的编码方式,JVM运行时采用utf16。 Java的字符串是unicode编码的。 总之,Java采用了unicode字符集,使之易于国际化。 Java支持哪些字符集:  即Java能识别哪些字符集并对它进行正确地处理? 查看Charset 类,最新的JDK支持160种字符集。可以通过

2012-08-06 10:54:47 542

转载 Java字符编码总结

总结下这两天对编码的认识一些认识,本文显得比较啰嗦,应为这是我探讨的整个流程结果,了解的有不对的地方多多指点出来!       不了解的相信你会有个不错的认解,这是我学习编程的一个开始,大家就多多帮村。       在查看网上一些资料时候,首先第一个奇怪的现象出了,据说是移动打不过联通的根本原因。       如果你的电脑操作系统是win2000或winxp的话,那么:

2012-08-06 10:53:16 657

转载 Python模块学习 --- urllib

Python模块学习 --- urllib [转] - [ Python ]版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明 http://itfengqing.blogbus.com/logs/85400065.html urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。每当使用这个模块的时候,老是会想起公司产品的客户端,

2012-08-05 23:05:30 400

转载 Python中的strip()和lstrip()以及rstrip()方法的使用

Python中的strip用于去除字符串的首尾字符,同理,lstrip用于去除左边的字符,rstrip用于去除右边的字符。这三个函数都可传入一个参数,指定要去除的首尾字符。需要注意的是,传入的是一个字符数组,编译器去除两端所有相应的字符,直到没有匹配的字符,比如:?theString = 'saaaay yes no yaaaass' printtheString.strip(

2012-08-05 22:18:54 591

转载 Pyrhon赋值语句后逗号的作用

IDLE 2.6.2>>> a = 1>>> b = 2, >>> print type(a) >>> print type(b) >>> c = []>>> d = [], >>> print type(c) >>> print type(d)  赋值表达式的后面加了逗号后,会自动得到一个tuple的对象,在作一些与类型

2012-08-05 00:04:27 1400

转载 Python中逗号的三种作用

最近研究python  遇到个逗号的问题 一直没弄明白 今天总算搞清楚了1.逗号在参数传递中的使用:     这种情况不多说  没有什么不解的地方 就是形参或者实参传递的时候参数之间的逗号      例如def  abc(a,b)或者abc(1,2)2.逗号在类型转化中的使用 主要是元组的转换      例如:  >>> a=11>>> b=(a)>>> b11

2012-08-05 00:02:50 32290 1

转载 Java类装载体系中隔离性

目标链接:http://www.oschina.net/question/30362_3895Java中类的查找与装载出现的问题总是会时不时出现在Java程序员面前,这并不是什么丢脸的事情,相信没有一个 Java程序员没遇到过ClassNotException,因此不要为被人瞅见自己也犯这样的错误而觉得不自然,但是在如果出现了 ClassNotFoundException后异常后一脸的

2012-08-02 20:39:43 573

转载 理解Java的ClassLoader机制

再次阅读这篇文章时,有了更深的体会,特转载之。当JVM(Java虚拟机)启动时,会形成由三个类加载器组成的初始类加载器层次结构:bootstrap classloader|extension classloader|system classloaderbootstrap classloader -引导(也称为原始)类加载器,它负责加载Java

2012-08-02 20:38:14 355

转载 实现mapreduce多文件自定义输出

普通maprduce中通常是有map和reduce两个阶段,在不做设置的情况下,计算结果会以part-000*输出成多个文件,并且输出的文件数量和reduce数量一样,文件内容格式也不能随心所欲。这样不利于后续结果处理。       在hadoop中,reduce支持多个输出,输出的文件名也是可控的,就是继承MultipleTextOutputFormat类,重写generateF

2012-08-02 20:16:46 578

转载 Class.getResourceAsStream和ClassLoader.getResourceAsStream

Class.getResourceAsStream和ClassLoader.getResourceAsStream(注:转载于http://dev.firnow.com/course/3_program/java/javajs/20090208/154974.html)两个都可以用于从 classpath 里面进行资源读取,  classpath包含classpath中的路径和classpat

2012-08-02 18:27:31 394

转载 ssh_exchange_identification: Connection closed by remote host

花了两个星期。终于搞定ssh_exchange_identification: Connection closed by remote host走了许多弯路。写解决方法 主要是 /etc/hosts.allow 和 /etc/hosts.deny问题 最好两个都设置一下。因为有些系统是先load hosts.allow 再 load hosts.allow .有些相反。

2012-08-02 16:08:47 2399

转载 第一章 Hadoop启动Shell启动脚本分析

第一节 start-all.sh脚本此脚本很简单,就是根据运行此脚本的目录进入安装hadoop目录下的bin目录,然后运行启动hdfs和mapred的启动脚本。 [plain] view plaincopybin=`dirname "$0"`   bin=`cd "$bin"; pwd`   . "$bin"/hadoop-config.sh   # sta

2012-08-02 15:45:50 892

转载 Hadoop的Shuffle过程(2)

4.        每次溢写会在磁盘上生成一个溢写文件,如果map的输出结果真的很大,有多次这样的溢写发生,磁盘上相应的就会有多个溢写文件存在。当map task真正完成时,内存缓冲区中的数据也全部溢写到磁盘中形成一个溢写文件。最终磁盘中会至少有一个这样的溢写文件存在(如果map的输出结果很少,当map执行完成时,只会产生一个溢写文件),因为最终的文件只有一个,所以需要将这些溢写文件归并到一起,这

2012-08-01 19:49:00 716

转载 辅助类GenericOptionsParser,Tool和ToolRunner

为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser,更方便的方式是:实现Tool接口,通过ToolRunner来运行应用程序,ToolRunner内部调用GenericOptionsPars

2012-08-01 19:46:58 1257

转载 Hadoop的Shuffle过程(1)

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里

2012-08-01 18:10:18 1161

转载 Map个数与Reduce个数的应用

1.coderplay 写道sorry,理解能力太差, 我不是很明白你的意思.如果你是需要控制单个节点同时在执行的的mapper/reducer数.你可以通过修改slave节点配置中的mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum.至于总的mapper任务数,是由splits决定的,当然可以通

2012-08-01 18:04:28 541

转载 Eclipse中安装Maven插件 M2eclipse

Eclipse中安装Maven插件 M2eclipse  下面是官网的说明,基本上的意思下面有图片说明.To install m2eclipse, use the following Eclipse update site to install the core of the m2eclipse plugin. This Core update site contain

2012-08-01 16:28:46 992

转载 Java打包jar的方法

jar 应用 先打开命令提示符(win2000或在运行筐里执行cmd命令,win98为DOS提示符),输入jar -help,然后回车(如果你盘上已经有了jdk1.1或以上版本),看到什么: 用法:jar {ctxu}[vfm0Mi] [jar-文件] [manifest-文件] [-C 目录] 文件名 ... 选项: -c 创建新的存档 -t 列出存档内容的列表 -x 展

2012-08-01 13:53:32 401

转载 从Java的jar文件中读取数据

Java 档案 (Java Archive, JAR) 文件是基于 Java 技术的打包方案。它们允许开发人员把所有相关的内容 (.class、图片、声音和支持文件等) 打包到一个单一的文件中。JAR 文件格式支持压缩、身份验证和版本,以及许多其它特性。  从 JAR 文件中得到它所包含的文件内容是件棘手的事情,但也不是不可以做到。这篇技巧就将告诉你如何从 JAR 文件中取得一个文

2012-08-01 13:49:05 1147

转载 MapReduce执行的几个例子

在Google的《MapReduce: Simpli ed Data Processing on Large Clusters》论文中,作者向世界阐述了什么是MapReduce。其中的几个关于MapReduce的例子很简单,但是很有代表性。拿来分享一下。       分布式Grep:map函数检查输入行,如果匹配给定的模板(类似于正则表达式的匹配),就把该行输出。reduce函数是一个标识函数

2012-08-01 13:47:52 632

转载 Hadoop作业提交的几种方案

前言: 提交hadoop作业时我们遇到了许多的问题,在网上也查过许多的文章,有许多对hadoop提交作业原理进行分析的文章,却总看不到对具体操作过程讲解的文章,导致我们在eclipse提交的作业总是在eclipse虚拟的云环境中运行。慢慢摸索中,一个一个的作业提交方法被我们发现,呵呵,现在总结一下吧。方案: 1、用命令行方式提交2、在eclipse中提交作业3、采用

2012-08-01 13:45:56 804

转载 Hadoop作业提交分析(一)

Hadoop作业提交分析(一) bin/hadoop jar xxx.jar mainclass args……  这样的命令,各位玩Hadoop的估计已经调用过NN次了,每次写好一个Project或对Project做修改后,都必须打个Jar包,然后再用上面的命令提交到Hadoop Cluster上去运行,在开发阶段那是极其繁琐的。程序员是“最懒”的,既然麻烦肯定是要想些法子减少无谓的键盘敲击,

2012-08-01 13:22:28 494

转载 Hadoop作业提交分析(三)

通过前面两篇文章的分析,对Hadoop的作业提交流程基本明了了,下面我们就可以开始编写代码模拟这个流程。第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来,后面再作为类加载器的URL搜索路径。/** * Add a directory or file to classpa

2012-08-01 13:16:12 1247

转载 Hadoop作业提交分析(二)

上一篇我们分析了bin/hadoop脚本,知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar,看它内部具体又做了些什么。     RunJar是Hadoop中的一个工具类,结构很简单,只有两个方法:main和unJar。我们从main开始一步步分析。     main首先检查传

2012-08-01 13:15:01 1051

pig-0.7.0.tar.gz

Hadoop系统的pig工具包,很好用的

2012-07-15

notepade++ 5.9.3

Notepade++ 5.9.3 是一款不错的文本编辑工作,推荐大家使用

2012-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除