- 博客(8)
- 收藏
- 关注
原创 Hive使用入门
Hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 建立Hive表 hive中创建表时,默认情况下h...
2014-07-30 22:26:29 90
原创 Java中的GetOpt操作
在shell工具中,有专门的getopt函数,使用方法如下所示: while getopts "d:t:vh" opt; do case "${opt}" in "d") DATE="${OPTARG}" ;; "t") ID="${OPTARG}" ID2=`echo $ID |
2014-07-26 16:02:09 124
原创 Tomcat的文件列表服务
今天需要将分析后的日志结果发布到网站上供其他人浏览,虽然用户可以通过直接使用url链接可以访问到对应的文件,但是毕竟还是不方便,没有一个类似文件浏览器的东西,可以直接查看文件夹和文件列表。 其实这样的工具在tomcat中本身就已经实现了,只不过以前没有使用。对于任何想要发布成文件服务的项目,在tomcat的webapps中有一个已经存在文件夹,都会作为一个Context来解析,在...
2014-07-23 21:18:02 118
原创 Hadoop MapReduce 初步学习总结
在Hadoop中一个作业被提交后,其后具体的执行流程要经历Map任务的提交中间结果处理,Reduce任务的分配和执行直至完成这些过程,下面就是MapReduce中作业详细的执行流程图(摘自《Hadoop实战》)。 在整个过程中,客户端中,编写MapReduce代码,配置并提交作业;JobTracker中负责初始化作业,分配作业,与TaskTracker进行通信,协调整...
2014-07-21 14:14:16 176
原创 hadoop集群调优-OS和文件系统部分
OS and File System 根据Dell(因为我们的硬件采用dell的方案)关于hadoop调优的相关说明,改变几个Linux的默认设置,Hadoop的性能能够增长大概15%。 open file descriptors and files 文件描述符是一个索引值,指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或者创建一个新文件时,内核向进程返...
2014-07-19 15:23:53 130
原创 Linux上启动Cron任务
cron是一个Linux下的定时执行工具,无需人工干预,与quartz上的cron表达式稍有不同。由于cron是Linux上的内置基础服务,并不是所有服务器都是默认启动该服务的,如果没有启动可以使用下面的命令: sudo service cron restart/start/stop 使用命令crontab –l 可以显示出当前用户cron服务的详细内容。 ...
2014-07-18 13:54:09 113
原创 一个简单的Java Web项目搭建流程
今天试图在服务器上搭建一个web服务器,顺便回顾了java web项目的入门,使用Servlet处理HTTP请求,并记录日志等操作。当很久没有做过web项目时,有些东西还是很容易忘记的。 Maven配置 使用maven进行整个项目的构建,使用intellij idea IDE,填写完groupId和artifactId之后,声明packaging元素为war包,在build...
2014-07-05 19:02:57 110
原创 Hadoop单机环境搭建整体流程
1. Ubuntu环境安装和基本配置 本例程中在MAC上安装使用的虚拟机Ubuntu系统(64位,desktop); 基本配置 考虑到以后涉及到hadoop的应用便于权限的管理,特别地创建一个hadoop用户,user和group名称均为hadoop。首先创建hadoop用户组: sudo addgroup hadoop 在刚才创建的分组中创建h...
2014-07-01 13:39:28 93
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人