2013年09月_风声2012

09月 08月 06月 05月 04月 03月 02月

原创 Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

输入是GBK文件, 输出也是 GBK 文件的示例代码:Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8，如果文件编码格式是其它类型（如GBK)，则会出现乱码。此时只需在mapper或reducer程序中读取Text时，使用transformTextToUTF8(text, "GBK");进行一下转码，以确保都是以UTF-8的

2013-09-19 13:39:32 18610 3

原创 [MapReduce] mapreduce 编程向标准错误输出报告以跟踪Mapreduce程序运行过程中的中间信息

在 mapreduce streaming 程序中向标准错误输出日志语句是一个很好的习惯. 输出到标准错误的信息将以报告形式输出.这样可以在网页中查看job运行过程中的中间信息.并且 mapreduce 程序默认在一段时间中没有任何输出(stdout, stderr) 时会将 job kill, 这可以避免此类问题.例如: python 中的 print >>s

2013-09-19 13:32:08 2373

原创 [MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录

本文主要讲解三个问题： 1 使用Java编写MapReduce程序时，如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何

2013-09-19 13:27:46 6286

原创 Hadoop进程启动过程分析

使用start-dfs.sh启动hdfs进程的详细过程涉及的脚本有:bin下:hadoop-config.sh start-dfs.sh hadoop-daemons.sh slaves.shhadoop-daemon.sh hadoopconf下:hadoop-env.sh 其中 hadoop-config.sh 和 h

2013-09-12 20:19:06 6345 1

原创 Java 命令行模式下编译 MapReduce 程序

不使用 eclipse 这些工具，直接使用 java 命令在命令行下编译 mapreduce 程序。首先需要设置CLASSPATH环境变量:将/root/hadoop/hadoop-0.20.1/hadoop-0.20.1/hadoop-0.20.1-core.jar和lib下的commons-cli-1.2.jar添加进入环境变量，export CLASSPA

2013-09-12 20:17:38 2981

Organizing Business Knowledge The MIT Process Handbook

Organizing Business Knowledge The MIT Process Handbook 业务建模方面的很好的资料.

2014-10-08

Ontology Matching

《Ontology Matching》本体论方面的很好的书籍.

2014-10-08

Oracle 11g R2 for Linux X64 OCCI

从已安装好的 Oracle 11g R2 for Linux X64 中拷贝的头文件和库文件。 OCCI。使用方法见 http://blog.csdn.net/zklth/article/details/7051366

2011-12-07

Eclipse中编译运行Hadoop-0.20.1源码

Eclipse中编译运行Hadoop-0.20.1源码，便于阅读源代码，

2010-06-18

使用NetBeans开发Struts Web 框架的快速入门指南

使用NetBeans开发Struts Web 框架的快速入门指南, 参考的网上教程，添加了一些自己写的东西

2010-06-18

Linux下Hadoop伪分布式配置

Linux Hadoop 伪分布式配置一个节点，线程模仿分布式

2010-05-28

Linux下Nutch分布式配置和使用

Linux下Nutch分布式配置使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

2010-05-28

Linux下Hadoop分布式配置和使用

Linux Hadoop 分布式配置和使用 Hadoop分布式配置 Hadoop使用： HDFS、Hadoop用户管理、Hadoop作业提交、Hadoop应用程序编写

2010-05-28

Ubuntu 8.10下Hadoop-0.20.1集群配置详细手册

Ubuntu 8.10 Hadoop-0.20.1 详细配置: SSH配置 JDK安装 Hadoop配置启动集群,查看状态

2010-03-25

SQL SERVER 2000使用链接服务器实现分布式数据库

(1)SQL SERVER 2000 (2)配置和使用链接服务器 (3)在本地实现分布式查询

2010-03-25

Ubuntu 8.10下Hadoop-0.20.1集群配置手册

Ubuntu 8.10下Hadoop-0.20.1集群配置手册 java ssh hadoop

2010-03-14

linux 下配置和应用lucene

本文档详细介绍了 red hat linux 9 下配置和应用 lucene 2.9.1 适合大家做参考

2009-12-04

wamp server 5集成开发环境

wamp server 5 是windows下apache 2.2,mysql 5,php 5的一个集成，使用此集成开发环境，不用做复杂的php,mysql配置工作。开发php程序十分方便

2009-12-04

windows下shopex的安装

Shopex是当前流行的开源电子商城，本文档描述shopex在wamp集成环境中的安装，也适合于非集成环境，

2009-12-04

Hadoop集群安装与配置手册

很详细的配置文档，比网上要详细，主要介绍hadoop集群配置，包含namenode,datanode配置基于ubuntu linux系统

2009-12-01

利用J2EE+Apache Tomcat搭建J2EE环境

详细介绍了搭建J2EE环境的过程，并给出了一个简单的JSP实例

2009-05-30

【server 2003系统下】Eclipse下实现Java和sql server/Oracle连接详细步骤说明

此文档中包含相关的JDBC驱动(sql,oracle)，详细的配置说明，对照此说明，可以很好的解决数据库连接的问题。

2009-04-10

C#最长匹配算法切词程序(信息检索)

使用最长匹配法来切割句子中的词语，其中词语包括关键词、停用词，存储在assess数据库中，基于单词，切割句子中的词语。 c# windows程序

2009-04-10

Brio designer用户使用指南

数据仓库前端报表展示工具Brio使用广泛，本使用说明绝对可以说是时下最完整的使用说明之一，网上一般很难找到，

2009-04-10

基于asp+Access的大中型论坛

实现了时下流行论坛的许多功能：包含论坛基本功能，此外用户注册后可以拥有自己的个人空间，详细功能有很多。下载下来后用户解压至iis主目录，在浏览器下输入：http://127.0.0.1/即可运行

2009-04-10

基于vs.net 2003+sql server的bbs小型论坛

实现了论坛的基本功能，支持UBB代码：发帖、回帖、管理帖子、发帖统计；程序、数据库都在里面。

2009-04-10

詹坤林叙述： (1)一种ETL过程概念建模方法 A Methodology for the Conceptual Modeling of ETL Processes.pdf (2)基于UML的ETL过程概念建模 A UML Based Approach for Modeling ETL Processes in Data Warehouses.pdf (3)中文文章结构图ETL概念模型的设计方法这3篇文章均是关于ETL过程概念建模的，前2篇是英文，我翻译了一遍，最后一篇是参照(1)的一篇中文资料。

2009-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

风声

原创 Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

原创 [MapReduce] mapreduce 编程向标准错误输出报告以跟踪Mapreduce程序运行过程中的中间信息

原创 [MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录

原创 Hadoop进程启动过程分析

原创 Java 命令行模式下编译 MapReduce 程序

Organizing Business Knowledge The MIT Process Handbook

Ontology Matching

Oracle 11g R2 for Linux X64 OCCI

Eclipse中编译运行Hadoop-0.20.1源码

使用NetBeans开发Struts Web 框架的快速入门指南

Linux下Hadoop伪分布式配置

Linux下Nutch单机配置

Eclipse中编译Nutch-1.0

Eclipse中编译Nutch-0.9

Linux下Nutch分布式配置和使用

Linux下Hadoop分布式配置和使用

Ubuntu 8.10下Hadoop-0.20.1集群配置详细手册

SQL SERVER 2000使用链接服务器实现分布式数据库

Ubuntu 8.10下Hadoop-0.20.1集群配置手册

linux 下配置和应用lucene

wamp server 5集成开发环境

windows下shopex的安装

Hadoop集群安装与配置手册

利用J2EE+Apache Tomcat搭建J2EE环境

【server 2003系统下】Eclipse下实现Java和sql server/Oracle连接详细步骤说明

C#最长匹配算法切词程序(信息检索)

Brio designer用户使用指南

基于asp+Access的大中型论坛

基于vs.net 2003+sql server的bbs小型论坛

Kettle3.0详细使用说明书

ETL过程概念建模好资料

基于UML的ETL过程建模方法

基于.NET的网上电子商城

基于vb6.0+sql server 2000 的图书管理系统

基于asp.net 2.0的仓库管理系统

空空如也