2014年07月_clamaa

原创 Hive使用入门

Hive简介 hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。建立Hive表 hive中创建表时，默认情况下h...

2014-07-30 22:26:29 90

原创 Java中的GetOpt操作

在shell工具中，有专门的getopt函数，使用方法如下所示： while getopts "d:t:vh" opt; do case "${opt}" in "d") DATE="${OPTARG}" ;; "t") ID="${OPTARG}" ID2=`echo $ID |

2014-07-26 16:02:09 124

原创 Tomcat的文件列表服务

今天需要将分析后的日志结果发布到网站上供其他人浏览，虽然用户可以通过直接使用url链接可以访问到对应的文件，但是毕竟还是不方便，没有一个类似文件浏览器的东西，可以直接查看文件夹和文件列表。其实这样的工具在tomcat中本身就已经实现了，只不过以前没有使用。对于任何想要发布成文件服务的项目，在tomcat的webapps中有一个已经存在文件夹，都会作为一个Context来解析，在...

2014-07-23 21:18:02 118

原创 Hadoop MapReduce 初步学习总结

在Hadoop中一个作业被提交后，其后具体的执行流程要经历Map任务的提交中间结果处理，Reduce任务的分配和执行直至完成这些过程，下面就是MapReduce中作业详细的执行流程图（摘自《Hadoop实战》）。在整个过程中，客户端中，编写MapReduce代码，配置并提交作业；JobTracker中负责初始化作业，分配作业，与TaskTracker进行通信，协调整...

2014-07-21 14:14:16 176

原创 hadoop集群调优－OS和文件系统部分

OS and File System 根据Dell（因为我们的硬件采用dell的方案）关于hadoop调优的相关说明，改变几个Linux的默认设置，Hadoop的性能能够增长大概15%。 open file descriptors and files 文件描述符是一个索引值，指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或者创建一个新文件时，内核向进程返...

2014-07-19 15:23:53 130

原创 Linux上启动Cron任务

cron是一个Linux下的定时执行工具，无需人工干预，与quartz上的cron表达式稍有不同。由于cron是Linux上的内置基础服务，并不是所有服务器都是默认启动该服务的，如果没有启动可以使用下面的命令： sudo service cron restart/start/stop 使用命令crontab –l 可以显示出当前用户cron服务的详细内容。 ...

2014-07-18 13:54:09 113

原创一个简单的Java Web项目搭建流程

今天试图在服务器上搭建一个web服务器，顺便回顾了java web项目的入门，使用Servlet处理HTTP请求，并记录日志等操作。当很久没有做过web项目时，有些东西还是很容易忘记的。 Maven配置使用maven进行整个项目的构建，使用intellij idea IDE，填写完groupId和artifactId之后，声明packaging元素为war包，在build...

2014-07-05 19:02:57 110

原创 Hadoop单机环境搭建整体流程

1. Ubuntu环境安装和基本配置本例程中在MAC上安装使用的虚拟机Ubuntu系统（64位，desktop）；基本配置考虑到以后涉及到hadoop的应用便于权限的管理，特别地创建一个hadoop用户，user和group名称均为hadoop。首先创建hadoop用户组： sudo addgroup hadoop 在刚才创建的分组中创建h...

2014-07-01 13:39:28 93

clamaa的专栏