wudi_1982-CSDN博客

原创 hadoop学习笔记--第十一天

经过前一段的学习，对hadoop算是有了一个第一印象。这几天忙，就随便搞搞。主要收获为：一，调试代码时，出现错误 java.io.IOException: Type mismatch in value from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.

2013-12-22 00:45:03 591

原创 hadoop学习笔记--第十天--增减删除节点

增加节点1、新增加节点192.168.203.1132、配置无密码rsh，将namenode节点/home/hdpuser/.ssh/authorized_keys拷贝同113的同等目录下，并设置.ssh目录权限为700,authorized_keys权限为6003、则namenode的slaves文件中，增添新机器的hostname4、在/etc/hosts中增添新机器hostn

2013-12-17 16:54:03 845

原创 hadoop学习笔记--第九天--Report Counter

可以在程序中定义不同的计数器，分别累计特定事件的发生次数。对于同一作业所有任务的相同计数器，Hadoop会自动对他们求和，以反映整个作业的情况。在Map以及reduce方法中，有一个reporter对象。例如以下代码红色字体部分： public static class MapClass extends MapReduceBase implements

2013-12-12 16:48:56 615

原创 hadoop学习笔记--第八天--MapReduce基础编程

初识MapReduce，本能的想到了datastage orchestrate并行引擎（partition，collection），很亲切，核心思想看起来差不多。只不过orchestrate中包含了各种partition、collection的具体method。但总体还是分为两类，以均匀分布为主旨的方法以及KEY值相关的方法（保证KEY相同在相同分区）。从《Hadoop in Acti

2013-12-11 18:04:25 522

原创 hadoop学习笔记--第七天--编程读写HDFS

虽然并不打算使用JAVA深入的开发Mapreduce程序，但经过这几日的了解，总觉得，如果不写几段MapReduce程序，也许真的不能很好理解HADOOP的一些思想。用PIG或Hive时，很多时候，察觉不到HDFS的存在。从网上找了一段读写HDFS的代码，来自《HADOOP实战》一书。因为之前没有任何JAVA编程的基础，所以今天的目标更多是搭建一个JAVA的开发环境，能够将COPY的代

2013-12-11 02:25:34 1121

原创 hadoop学习笔记-第六天-初步接触Hive

hadoop的东西玩的有点儿上瘾了，睡觉睡不着。对于一个写代码自娱自乐的销售来说，这几天折腾HADOOP的时间有点儿多了。 Hive是建立在hadoop基础上的数据仓库软件包，其目标用户仍然是习惯了SQL的数据分析师，他们需要在HADOOP规模的数据上做既系查询、汇总和数据分析，因为是建立在HADOOP基础上，所以它仍然设计用于处理低延迟与批量类型的作业。故而它并不会直接取代传统的S

2013-12-10 01:29:34 606

原创 hadoop学习笔记-第六天-学习Pig Latin

一个准备工作先做了一个测试。用于“分布式存储“。1、通过shell创建按了一个152M的文件，具体shell如下：for k in $( seq 1 1500000 )do echo -e "$k\twudi$k\ttest$k\tabcd$k\t$k" >> tt.txt 2>&1 echo -e "$k\twudi$k\ttest$k\tabcd$k\t$k" >>

2013-12-09 22:37:25 761

原创 hadoop学习笔记-第五天-重新修复全集群环境

基本配置记录之前虽然看起来全集群配置好了，但在后续的学习测试中（例如PIG），发现还是会有各种报错。切换到伪集群模式正常，怀疑和全集群环境的配置有关系。今天重新折腾一番。放弃之前从各个网络环境查到的资料（之前的配置文件其实是个“融合”版），到官网http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-c

2013-12-08 15:10:05 700

原创 hadoop学习笔记-第四天-PIG环境搭建

安装配置pig 0.12.01、下载pig 0.12.02、直接解压，配置环境变量export JAVA_HOME=/usr/java/jdk1.7.0_45export HADOOP_HOME=/home/hdpuser/hadoop-2.2.0export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoopexport PATH=$PATH:$H

2013-12-08 04:59:11 1312

原创 hadoop学习笔记-第三天-搭建集群

hadoop可分为： 1、本地（单机）模式，默认情况 2、伪分布模式，是在单节点上运行“集群” 3、全分布模式单机模式在昨天的测试中已经测过，不再记录。全分布模式配置过程记录： 1、准备两台虚拟机，网络可以互相连接，/etc/hosts文件如下127.0.0.1 localhost.localdomain loc

2013-12-07 23:09:22 1042

原创 hadoop学习笔记-第二天-动手编译hadoop

昨天从官网下的介质，运行第一个程序时，有如下警告信息：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 发现是本地库不能正常加载，从网上找了一些资料，总结起来对于我这个以学习为目的，

2013-12-06 22:23:21 959

原创 hadoop学习笔记-第一天-从安装开始

这些年做销售有点儿吃老本了。之前做数据算是和hadoop有那么点儿缘分，莫名玩上nutanix，才发现缘分也许不止那么一点点。就从word count开始运行第一个程序吧。 1、linux虚拟机一台，我用了SUSE11 2、现在HADOOP介质，下了2.2.0版本，http://mirrors.cnnic.cn/apache/hadoop/common/

2013-12-06 01:30:08 619

原创 DB2在linux下的安装于配置

环境：DB2 V9.1 ，RHLinux AS4 update 2（ip 192.168.43.4）一、安装DB2以及DB2实例1. 解压缩安装介质tar -xzf db2_v9_ese_linux_32.tar.gz2. 找到解压缩后的目录，找到db2setup.sh，执行安装 ./db2setup.sh,用root安装3. 按

2007-08-06 12:08:00 2030

转载 Linux守护进程的编程方法

Linux守护进程的编程方法守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。Linux的大多数服务器就是用守护进程实现的。比如，Internet服务器inetd，Web服务器httpd等。同时，守护进程完成许多系统任务。比如，作业规划进程crond，打印进程lpd等。

2007-06-15 00:20:00 735

转载 linux/unix下的ODBC编程

使用unixODBC提供的ODBC API进行编程：在进行编程之前，我们来看一下ODBC API中的常用数据类型与我们在C语言中使用的数据类型的对应关系：类型标识符 ODBC数据

2007-06-15 00:10:00 2039

原创 Linux/Unix下ODBC的配置

UNIX下ODBC的配置的可以通过/usr/bin目录下的ODBCConfig来完成，当然，这需要桌面环境的支持。还有一个用来辅助ODBC配置和产看数据的工具是DataManager。如果你用过Windows平台下的ODBC配置，那么LINUX下的和它几乎一样，区别只是windows写注册表，而linux写文件。通常，我更乐意手动完成这种配置。这需要以下几个步骤：编

2007-06-15 00:04:00 3332

转载 Linux/Unix下ODBC的安装

原理 ODBC 是Open Database Connect 即开放数据库互连的简称，它是由Microsoft 公司于1991 年提出的一个用于访问数据库的统一界面标准，是应用程序和数据库系统之间的中间件。它通过使用相应应用平台上和所需数据库对应的驱动程序与应用程序的交互来实现对数据库的操作，避免了在应用程序中直接调用与数据库相关的操作，从而提供了数据库的独立性。

2007-06-14 23:48:00 2363

一、什么是oracle字符集　　Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货币，数字，和日历自动适应本地化语言和平台。　　影响oracle数据库字符集最重要的参数是NLS_LANG参数。它的格式如下:　　NLS_LANG = lang

2007-05-30 16:27:00 863

原创 ORACLE中的日志

Redo Log 除了与表空间联系紧密的数据文件外， Oracle还有另一个与其相关的称作Online Redo Log的操作系统文件。Redo Log也称作事务日志( Transaction Log)，Orcle在这些特殊的操作系统文件中记录针对数据库进行的修改操作或事务。对数据库所做的所有修改工作都在内存中进行， Oracle这样的处理主要是出于性能方面的考虑，因为在磁盘I／O 中操

2007-05-29 19:24:00 1403

原创 bsh中的测试符

从man中摘取下来的。 CONDITIONAL EXPRESSIONS Conditional expressions are used by the [[ compound command and the test and [ builtin commands to test file attributes and perform string and arithmetic

2007-05-19 11:18:00 693

转载 UNIX中的GDB

GDB简介：************** 调试器(比如象GDB)能让你观察另一个程序在执行时的内部活动，或程序出错时发生了什么。 GDB主要能为你做四件事(包括为了完成这些事而附加的功能)，帮助你找出程序中的错误。运行你的程序，设置所有的能影响程序运行的东西保证你的程序在指定的条件下停止当你程序停止时，让你检查发生了什么

2007-05-18 20:31:00 893

原创 UNIX常用配置文件

1./etc/hosts 主机名配置文件，提供机器名和IP的映射，格式如下： ip hostname IP 为127.0.0.1是系统的保留网段，配置网络的命令使用这一网段对网络进行配置和测试，所以每台机器必须将127.0.0.1设为localhost 2./etc/passwd 口令文件，保存系统的用户和用户信息，早期的UNIX系统将加密后的用户口令也放在这个文件中，后续的u

2007-05-18 20:17:00 1136

原创 Linux中的定时器（一）

linux中一个比较简单的计时器是alarm() 和 signal() 如果要求不很精确的话，用它们两个配合就足够了。从alarm这个名字的意思“警告”就可以看出，此计时器在设计时，也许就仅仅只是提供给调用者用来做警告使用的。声明如下： unsigned int alarm(unsigned int seconds) 为SIGALRM信号而设

2007-05-11 20:47:00 909

原创 linux下配置无密码的rsh访问

要配置无密码的rsh，有多种方法。例如：你可以配置/etc/hosts.equiv或者为每个用户生成一个.rhosts文件。配置时候，通常是写入一个允许的远程计算机名（当然，/etc/hosts中应该有相应的IP），此计算机名应该和DataStage配置文件中的fastname相同。一个使用为每个用户创建.rhosts方法配置无密码rsh登陆的例子：注：此例子配置d

2007-04-27 21:13:00 1537

原创 SMP和MPP的优缺点

这两天要捣腾一个由SMP以及MPP构成的计算机群，于是对SMP以及MPP google了一下，总结如下： SMP的全称是"对称多处理"（Symmetrical Multi-Processing）技术，是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。它是相对非对称多处理技术而言的、应用十分广泛的并行技术。在这种架构中，一台电脑不再由单个CPU

2007-04-27 21:07:00 3206

原创 ORA-12514:TNS:监听程序当前无法识别连接描述符中请求的服务

今天修改了linux的hostname（在/etc/hosts中），修改后，我发现我的oracle中的监听服务可以起来，但客户端无法通过PL*SQL连接，报错说“ORA-12514:TNS:监听程序当前无法识别连接描述符中请求的服务”。即使在服务器段，通过sqlplus abc/abc@ABC也无法连接。后来，在/home/oracle/product/

2007-04-26 20:39:00 5524

转载 linux中find命令使用详解

名称find - 在目录层次中寻找文件概要find [path...] [expression]路径表达式描述这个文档是GNU版本find命令的使用手册。find搜索目录树上的每一个文件名，它从左至右鉴定给定的表达式，按照优先规则(见运算符一节)进行匹配，直到知道结果（运算符左边值为假则进行与操作，为真则进行或操作），然后find移向下一个文件名。第一个开头带有-,(,),,,或

2007-04-22 14:49:00 983

转载 fstab文件

如果想开机就自动挂载(mount)上，可以在/etc/fstab上添加如下几行：/dev/hda5 /mnt/d vfat exec,dev,suid,rw,umask=0,iocharset=gb2312,codepage=936 0 0同时也解决了中文文件名的乱码问题，我的fstab文件如下，仅供参考：LABEL=/12 / ext3 defaults 1 1none /dev/pts

2007-04-22 14:48:00 515

原创安装oracle10g到Red Hat Enterprise Linux 4

以下操作是我在VM中安装linux以及oracle的步骤：（未整理版）一．安装LINUX企业版4 这个地方没有什么太值得记录的内容，唯一让值得一提的是，默认安装时，不会安装telnet和ftp。要安装oracle，还需要安装gcc。二．虚拟机中的设备分配－一些准备工作因为要安装oracle，并且这个鬼东西很大，所以我选择将他们分别存储在不同的磁盘设备上，主要操作如下

2007-04-22 14:45:00 847

转载在linux下安装oracle 9i 全文档

Coming soon: Installing Oracle9i RAC on Red Hat Advanced 2.1 (this article will also cover OCFS and FireWire Drives) Installing Oracle 9i on RedHat Linux 7.1, 7.2, 7.3, 8.0, 9, Red Hat Advanced Serv

2007-04-22 14:33:00 1488

转载 Linux中创建文件系统及挂载文件系统

本文转载自网上，具体位置我记不太清楚了。如果您想加载一个分区（文件系统），首先您得确认文件系统的类型，然后才能挂载使用，比如通过mount 加载，或者通过修改 /etc/fstab来开机自动加载。如果您想添加一个新的分区，或者增加一个新的硬盘，您要通过分区工具来添加分区，然后要创建分区的文件系统，然后才是挂载文件系统；比如通过mount 加载，或者通过修改 /etc/

2007-04-22 12:02:00 838

原创在C#下获得操作系统是windows xp professional还是windows xp home

在VS.NET中，通常使用Version.Minor或者System.Environment.OSVersion.ToString()来获得关于操作系统信息的情况，这有一个例外（也许是我还不知道怎么用），即只能获得xp or nt，98之类，以及一些版本号。无法获得是windows xp professional或者windows xp home。如果在DELPHI或

2006-12-24 07:14:00 1105

原创 DELPHI下的Winsock编程（三）－－一模式和I/O控制

I/O控制指令一系列套接字I/O控制函数用于在套接字之上，控制I/O的行为，同时获取与那个套接字上进行的I/O操作有关的信息。其中，第一个函数是ioctlsocket，起源于Winsock 1规范，声明如下：int ioctlsocket ( SOCKET s, long cmd, u_long FAR* argp ); 其中，参数s指

2006-10-10 17:35:00 4616 3

原创 DELPHI下的Winsock编程（二）－－一些基本的API函数

勿在浅沙筑高楼。在谈论TServerSocket等组件编写之前，这里先对Winsock中一些基本概念和API函数做一个简单的说明。一、定址要通过Winsock建立通信，必须了解如何利用指定的协议为工作站定址。Winsock 2引入了几个新的、与协议无关的函数，它们可和任何一个地址家族一起使用；但是大多数情况下，各协议家族都有自己的地址解析机制，要么通过一个函数，要么作为一个投

2006-10-10 17:25:00 4895

原创 DELPHI下的Winsock编程（一）－－从TClientSocket控件出发

DELPHI下的SOCK编程本文是写给公司新来的程序员的，算是一点培训的教材。本文不会涉及太多的编程细节，只是简单讲解在DELPHI下进行Winsock编程最好了解的知识。题外话：我认为学习编程就如同学习外语一样，最好的方式是你先学会如何去运用它，然后才是了解它的语言特性、语法之类的东西。不过很可惜，我们以前的外语教育使用了相反的过程。软件编程也是一样，在很多人的大学阶

2006-10-10 16:28:00 6528

原创 WINDOWS的内存管理【虚拟内存管理】(一)

导读：如果你已经对windows虚拟内存的概念有了一定认识，而只是想看一个例子，你可以跳过前面的基本概念。基本概念【摘录】每个进程都被赋予它自己的虚拟地址空间。对于32位进程来说，这个地址空间是4GB，因为32位指针可以拥有从0x000000000至0xFFFFFFFF之间的任何一个值。这使得一个指针能够拥有4 294 967 296个值中的一个值，它覆盖了一个进程的4GB虚拟空

2006-10-03 04:43:00 2874

原创 WIN32下DELPHI中的多线程【同步2】(五)

线程同步2 上一文中曾经介绍了线程同步的一些方法，其实完成同步还有很多很多的办法，这里最后介绍一种方式－－信号量内核对象。并借此来回顾线程同步。在谈论信号量之前，我想先谈论另外一种方式，一种你最好不要使用的方式。假设你有一个公共内存区域，你不希望一个线程在完成一个操作之前另外一个线程对他进行另外的操作。抛开前面所有的知识，我们可以使用这样一种办法，一种所有人都会想到的办法。

2006-09-30 04:49:00 1650

原创 WIN32下DELPHI中的多线程【同步1】(四)

线程的同步在使用的时候，多线程最让人头疼的也许就是同步了。如果你的线程只是完成一件并不需要访问线程对象外部资源的工作，在这种情况下，线程互相之间不需要进行通信，此时Windows的运行性能最好。但是，线程很少能够在所有的时间都独立地进行操作。通常情况下，要生成一些线程来处理某个任务。当这个任务完成时，另一个线程必须了解这个情况。系统中的所有线程都必须拥有对各种系统资源的

2006-09-29 06:05:00 2261

原创 WIN32下DELPHI中的多线程【变量存储】(三)

线程中的变量由于每个线程都代表了一个不同的执行路径，因此，最好有一种只限于一个线程内部使用的数据，要实现上述目的有以下几种方式： 1、局部变量（基于栈），很简单，在你的线程函数中你定义的变量既是如此。由于每个线程都在各自的栈中，各个线程将都有一套局部变量的副本，这样，就不会相互影响。对于那些只在过程或函数的生存期有意义的变量，应当把它们声明为局部变量。 2、存储在线程对

2006-09-28 07:17:00 1406

空空如也

空空如也