2012年08月_liuzx32

转载 Java批处理写数据库的实例代码

Java写数据库时的批处理程序示例StringBuilder sUpdateSQL = new StringBuilder(80); sUpdateSQL.append("UPDATE "); sUpdateSQL.append("表名"); sUpdateSQL.append(" SET title=? WHERE username=? AND password=?");

2012-08-18 00:47:23 689

转载 Java中preparedStatement的错误使用

java中PreparedStatement的错误使用今天在翻看一个以前项目的代码的时候发现了一个对PreparedStatement的错误使用，为了避免自己以后犯类似的错误，特别记录一下！首先先看下面的增删改查的代码:public int insert(String sql) throws Exception {Logger.getLogger(this.getClass

2012-08-18 00:41:52 3628

转载 python下的MySQLdb使用

下载安装MySQLdb linux版本http://sourceforge.net/projects/mysql-python/ 下载，在安装是要先安装setuptools，然后在下载文件目录下，修改mysite.cfg,指定本地mysql的mysql-config文件的路径windows版本网上搜索到一个http://www.technicalbard.com/files/MyS

2012-08-17 22:38:06 414

转载 Hadoop OutputFormat浅析

在Hadoop中，OutputFormat和InputFormat是相对应的两个东西。相比于InputFormat，OutputFormat似乎没有那么多细节。InputFormat涉及到对输入数据的解析和划分，继而影响到Map任务的数目，以及Map任务的调度（见《Hadoop InputFormat浅析》）。而OutputFormat似乎像其字面意思那样，仅仅是完成对输出数据的格式化。对于输

2012-08-09 00:02:57 835

转载 Hadoop开发常用的InputFormat和OutputFormat

在用hadoop的streaming读数据时，如果输入是sequence file，如果用“-inputformat org.apache.hadoop.mapred.SequenceFileInputFormat”配置读的话，读入的数据显示的话为乱码，其实是因为读入的还是sequence file格式的，包括sequencefile的头信息在内.改为“inputformat org.apache

2012-08-08 23:59:28 1083

转载 Hadoop自定义RecordReader

系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值，每行的内容作为map的value值，默认的分隔符是回车和换行。现在要更改map对应的输入的值，key对应的文件的路径（或者是文件名），value对应的是文件的内容（content）。那么我们需要重写InputFormat和RecordReader，因为RecordReader是在InputFor

2012-08-08 23:57:45 1006

转载 Hadoop 自定义InputFormat实现自定义Split

上一篇文章中提到了如何进行RecordReader的重写，本篇文章就是来实现如何实现自定义split的大小要解决的需求：（1）一个文本中每一行都记录了一个文件的路径，（2）要求处理路径对应的文件，但是因为文件量比较大，所以想进行分布式处理（3）所以就对输入的文档进行预处理，读取前N行做为一个splits，但是没有实现，因为重写FileSplit不是太容易实现，就偷懒

2012-08-08 23:56:50 699

转载 Hadoop自定义InputFormat

接触hadoop一年多了，但是自己一直没有用hadoop写过什么程序。最近，由于项目需要，将一些文件转换成hadoop的MapFile。网上的例子基本是直接处理文本输入，自定义输入格式的见到两个，但是都是用的旧的API，用新API写的还没有，可能高手不屑于写这些。但是处理自定义输入是每个用hadoop的人都要学会才行的，因为不是每个人的输入都是文本文件。数据输入是hadoop的第一步，不能读自

2012-08-08 23:46:53 603

转载 Hadoop InputFormat浅析

在执行一个Job的时候，Hadoop会将输入数据划分成N个Split，然后启动相应的N个Map程序来分别处理它们。数据如何划分？Split如何调度（如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上）？划分后的数据又如何读取？这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发：1、运行mapred程序；2、本次运行将生成一

2012-08-08 23:20:47 384

转载 Hadoop&MapReduce操作关系数据库(MySQL)

前以前帖子介绍，怎样读取文本数据源和多个数据源的合并：http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html这一个博客介绍一下MapReduce怎样读取关系数据库的数据，选择的关系数据库为MySql，因为它是开源的软件，所以大家用的比较多。以前上学的时候就没有用过开源的软件，直接用盗版，也相当与免费，且比开源好用，例如

2012-08-08 15:16:32 1208

转载 Java日期格式化类SimpleDateFormat

public class SimpleDateFormat extends DateFormatSimpleDateFormat 是一个以国别敏感的方式格式化和分析数据的具体类。它允许格式化 (date -> text)、语法分析 (text -> date)和标准化。SimpleDateFormat 允许以为日期-时间格式化选择任何用户指定的方式启动。但是，希望用DateFo

2012-08-08 14:05:47 608

转载 yum安装MySQL数据库

yum安装mysql很是方便，但安装好之后的问题却搞了半天。首先，安装mysql。yum list | grep mysql；选择合适的版本，yum intall 该版本；yum list | grep mysql-server；选择合适的版本，yum intall 该版本。安装完成后，添加 mysqld 服务。/sbin/chkconfig –-add mysqld [在服

2012-08-08 11:56:17 493

转载 Python直接从命令行读参数

由来由于缺乏某python程序直接外部的API调用的支持，于是打算直接使用该python工具内部的api，通过几步设置好环境以后，该API可以调用并且成功。但是，发现调用应用的目标是错误的，在服务器端调用该api不能达到处理的目的，这个api应该在目标板端执行，也就是通过板子命令行执行。解决之道1. 板子缺乏相应的python支持，但好在是Ubuntu的系统，安装该

2012-08-07 00:10:11 1106

转载 Java字符编码

首先讲一下几种字符的编码方式:1. ASCII码我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从0000000到11111111。上个世纪60年代，美国制定了

2012-08-06 10:56:00 542

转载 Java编码问题

Java与Unicode： Java的class文件采用utf8的编码方式，JVM运行时采用utf16。 Java的字符串是unicode编码的。总之，Java采用了unicode字符集，使之易于国际化。 Java支持哪些字符集：即Java能识别哪些字符集并对它进行正确地处理？查看Charset 类，最新的JDK支持160种字符集。可以通过

2012-08-06 10:54:47 542

转载 Java字符编码总结

总结下这两天对编码的认识一些认识，本文显得比较啰嗦，应为这是我探讨的整个流程结果，了解的有不对的地方多多指点出来！不了解的相信你会有个不错的认解，这是我学习编程的一个开始，大家就多多帮村。在查看网上一些资料时候，首先第一个奇怪的现象出了，据说是移动打不过联通的根本原因。如果你的电脑操作系统是win2000或winxp的话，那么：

2012-08-06 10:53:16 657

转载 Python模块学习 --- urllib

2012-08-05 23:05:30 400

转载 Python中的strip()和lstrip()以及rstrip()方法的使用

Python中的strip用于去除字符串的首尾字符，同理，lstrip用于去除左边的字符，rstrip用于去除右边的字符。这三个函数都可传入一个参数，指定要去除的首尾字符。需要注意的是，传入的是一个字符数组，编译器去除两端所有相应的字符，直到没有匹配的字符，比如：?theString = 'saaaay yes no yaaaass' printtheString.strip(

2012-08-05 22:18:54 591

转载 Pyrhon赋值语句后逗号的作用

IDLE 2.6.2>>> a = 1>>> b = 2, >>> print type(a) >>> print type(b) >>> c = []>>> d = [], >>> print type(c) >>> print type(d) 赋值表达式的后面加了逗号后，会自动得到一个tuple的对象，在作一些与类型

2012-08-05 00:04:27 1400

转载 Python中逗号的三种作用

最近研究python 遇到个逗号的问题一直没弄明白今天总算搞清楚了1.逗号在参数传递中的使用：这种情况不多说没有什么不解的地方就是形参或者实参传递的时候参数之间的逗号例如def abc(a,b)或者abc(1,2)2.逗号在类型转化中的使用主要是元组的转换例如: >>> a=11>>> b=(a)>>> b11

2012-08-05 00:02:50 32290 1

转载 Java类装载体系中隔离性

目标链接：http://www.oschina.net/question/30362_3895Java中类的查找与装载出现的问题总是会时不时出现在Java程序员面前，这并不是什么丢脸的事情，相信没有一个 Java程序员没遇到过ClassNotException,因此不要为被人瞅见自己也犯这样的错误而觉得不自然，但是在如果出现了 ClassNotFoundException后异常后一脸的

2012-08-02 20:39:43 573

转载理解Java的ClassLoader机制

再次阅读这篇文章时，有了更深的体会，特转载之。当JVM（Java虚拟机）启动时，会形成由三个类加载器组成的初始类加载器层次结构：bootstrap classloader|extension classloader|system classloaderbootstrap classloader －引导（也称为原始）类加载器，它负责加载Java

2012-08-02 20:38:14 355

转载实现mapreduce多文件自定义输出

普通maprduce中通常是有map和reduce两个阶段，在不做设置的情况下，计算结果会以part-000*输出成多个文件，并且输出的文件数量和reduce数量一样，文件内容格式也不能随心所欲。这样不利于后续结果处理。在hadoop中，reduce支持多个输出,输出的文件名也是可控的，就是继承MultipleTextOutputFormat类，重写generateF

2012-08-02 20:16:46 578

转载 Class.getResourceAsStream和ClassLoader.getResourceAsStream

Class.getResourceAsStream和ClassLoader.getResourceAsStream(注：转载于http://dev.firnow.com/course/3_program/java/javajs/20090208/154974.html)两个都可以用于从 classpath 里面进行资源读取， classpath包含classpath中的路径和classpat

2012-08-02 18:27:31 394

转载 ssh_exchange_identification: Connection closed by remote host

花了两个星期。终于搞定ssh_exchange_identification: Connection closed by remote host走了许多弯路。写解决方法主要是 /etc/hosts.allow 和／etc/hosts.deny问题最好两个都设置一下。因为有些系统是先load hosts.allow 再 load hosts.allow .有些相反。

2012-08-02 16:08:47 2399

转载第一章 Hadoop启动Shell启动脚本分析

第一节 start-all.sh脚本此脚本很简单，就是根据运行此脚本的目录进入安装hadoop目录下的bin目录，然后运行启动hdfs和mapred的启动脚本。 [plain] view plaincopybin=`dirname "$0"` bin=`cd "$bin"; pwd` . "$bin"/hadoop-config.sh # sta

2012-08-02 15:45:50 892

转载 Hadoop的Shuffle过程（2）

4. 每次溢写会在磁盘上生成一个溢写文件，如果map的输出结果真的很大，有多次这样的溢写发生，磁盘上相应的就会有多个溢写文件存在。当map task真正完成时，内存缓冲区中的数据也全部溢写到磁盘中形成一个溢写文件。最终磁盘中会至少有一个这样的溢写文件存在(如果map的输出结果很少，当map执行完成时，只会产生一个溢写文件)，因为最终的文件只有一个，所以需要将这些溢写文件归并到一起，这

2012-08-01 19:49:00 716

转载辅助类GenericOptionsParser，Tool和ToolRunner

为了简化命令行方式运行作业，Hadoop自带了一些辅助类。GenericOptionsParser是一个类，用来解释常用的Hadoop命令行选项，并根据需要，为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser，更方便的方式是：实现Tool接口，通过ToolRunner来运行应用程序，ToolRunner内部调用GenericOptionsPars

2012-08-01 19:46:58 1257

转载 Hadoop的Shuffle过程（1）

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里

2012-08-01 18:10:18 1161

转载 Map个数与Reduce个数的应用

1.coderplay 写道sorry,理解能力太差, 我不是很明白你的意思．如果你是需要控制单个节点同时在执行的的mapper/reducer数．你可以通过修改slave节点配置中的mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum．至于总的mapper任务数,是由splits决定的，当然可以通

2012-08-01 18:04:28 541

转载 Eclipse中安装Maven插件 M2eclipse

Eclipse中安装Maven插件 M2eclipse 下面是官网的说明，基本上的意思下面有图片说明.To install m2eclipse, use the following Eclipse update site to install the core of the m2eclipse plugin. This Core update site contain

2012-08-01 16:28:46 992

转载 Java打包jar的方法

jar 应用先打开命令提示符(win2000或在运行筐里执行cmd命令，win98为DOS提示符)，输入jar -help,然后回车(如果你盘上已经有了jdk1.1或以上版本)，看到什么：用法：jar {ctxu}[vfm0Mi] [jar-文件] [manifest-文件] [-C 目录] 文件名 ... 选项： -c 创建新的存档 -t 列出存档内容的列表 -x 展

2012-08-01 13:53:32 401

转载从Java的jar文件中读取数据

Java 档案 (Java Archive, JAR) 文件是基于 Java 技术的打包方案。它们允许开发人员把所有相关的内容 (.class、图片、声音和支持文件等) 打包到一个单一的文件中。JAR 文件格式支持压缩、身份验证和版本，以及许多其它特性。　　从 JAR 文件中得到它所包含的文件内容是件棘手的事情，但也不是不可以做到。这篇技巧就将告诉你如何从 JAR 文件中取得一个文

2012-08-01 13:49:05 1147

转载 MapReduce执行的几个例子

在Google的《MapReduce: Simpli ed Data Processing on Large Clusters》论文中，作者向世界阐述了什么是MapReduce。其中的几个关于MapReduce的例子很简单，但是很有代表性。拿来分享一下。分布式Grep：map函数检查输入行，如果匹配给定的模板（类似于正则表达式的匹配），就把该行输出。reduce函数是一个标识函数

2012-08-01 13:47:52 632

转载 Hadoop作业提交的几种方案

前言：提交hadoop作业时我们遇到了许多的问题，在网上也查过许多的文章，有许多对hadoop提交作业原理进行分析的文章，却总看不到对具体操作过程讲解的文章，导致我们在eclipse提交的作业总是在eclipse虚拟的云环境中运行。慢慢摸索中，一个一个的作业提交方法被我们发现，呵呵，现在总结一下吧。方案： 1、用命令行方式提交2、在eclipse中提交作业3、采用

2012-08-01 13:45:56 804

转载 Hadoop作业提交分析（一）

Hadoop作业提交分析（一） bin/hadoop jar xxx.jar mainclass args……　　这样的命令，各位玩Hadoop的估计已经调用过NN次了，每次写好一个Project或对Project做修改后，都必须打个Jar包，然后再用上面的命令提交到Hadoop Cluster上去运行，在开发阶段那是极其繁琐的。程序员是“最懒”的，既然麻烦肯定是要想些法子减少无谓的键盘敲击，

2012-08-01 13:22:28 494

转载 Hadoop作业提交分析（三）

通过前面两篇文章的分析，对Hadoop的作业提交流程基本明了了，下面我们就可以开始编写代码模拟这个流程。第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来，后面再作为类加载器的URL搜索路径。/** * Add a directory or file to classpa

2012-08-01 13:16:12 1247

转载 Hadoop作业提交分析（二）

上一篇我们分析了bin/hadoop脚本，知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar，看它内部具体又做了些什么。 RunJar是Hadoop中的一个工具类，结构很简单，只有两个方法：main和unJar。我们从main开始一步步分析。 main首先检查传

2012-08-01 13:15:01 1051

pig-0.7.0.tar.gz

notepade++ 5.9.3

空空如也