hadoop
文章平均质量分 92
滕百川
现在为技术疯狂学习思考创造
展开
-
ubuntu下hadoop安装
前面均在windows下进行,但是在安装hadoop过程中出了一些问题,先暂时切换到linux下,回头再补充windows下的安装。不过通过对比确实发现,在linux下的安装配置确实比较简单。一.安装ubuntu 我是下载的ubuntu12.04,在64位的虚拟机上使用virtualbox安装的,没错,是在虚拟机上在安装虚拟机,然后安装ubuntu具体安装过程就不描述了,不过安装过程转载 2013-10-19 21:06:07 · 1834 阅读 · 1 评论 -
MongoDB的Java驱动使用整理
|字号 订阅 MongoDB Java Driver 简单操作 一、Java驱动一致性 MongoDB的Java驱动是线程安全的,对于一般的应用,只要一个Mongo实例即可,Mongo有个内置的连接池(池大小默认为10个)。 对于有大量写和读的环境中,为了确保在一个Session中使用同一个DB时,我们可以用以下方式保证一致性:转载 2013-10-28 19:17:32 · 712 阅读 · 0 评论 -
Windows--hadoop
Windows--hadoop分类: 编译工具和环境2013-02-21 13:28 662人阅读 评论(0) 收藏 举报Cygwin 的使用Windows--Cygwin--运行hadoop http://wenku.baidu.com/view/6af47921af45b307e8719799.html http://wenku.baidu.com/view/454转载 2013-10-22 14:56:06 · 760 阅读 · 0 评论 -
hadoop安装
A)版本 hadoop-1.0.3 jdk1.6.0_32eclipse hadoop开发插件 hadoop-eclipse-plugin-1.0.3.jarhadoop-1.0.3 使用单机模式安装, 端口 hdfs 9000 mapred 9001B)环境1) hadoop-1.0.3 的安装步骤 可以参照http://hadoop.转载 2013-10-22 14:58:07 · 677 阅读 · 0 评论 -
MongoDB Hadoop Connector的1.0版本
10gen刚刚发布了MongoDB Hadoop Connector的1.0版本,它是一个中间件产品,用于将MongoDB和Hadoop连接起来,让MongoDB可以方便的使用Hadoop的分布式计算能力。MongoDB Hadoop Connector的主要流程是让Hadoop从MongoDB中读取原始数据,在通过Hadoop计算完成后,再将结果导入到MongoDB中。原始数据的读取和结果写入可翻译 2013-10-21 15:00:20 · 952 阅读 · 0 评论 -
实战1——Hive与JDBC示例
转自:http://www.cnblogs.com/linjiqin/archive/2013/03/07/2947848.html在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口。使用下面命令进行开启:hive -service hiveserver &1). 测试数据userinfo.txt文件内容(每行数据之间用tab键隔开):转载 2013-10-21 14:43:18 · 1248 阅读 · 0 评论 -
实战2——Hadoop的日志分析
转自:http://www.cnblogs.com/linjiqin/archive/2013/03/07/2948078.html1). 日志格式分析首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示: 2013-03-06 15:23:48,132 INFO org.apache.hadoop.h转载 2013-10-21 14:38:21 · 1456 阅读 · 0 评论 -
hadoop系统命令
hadoop fs is the command to execute fs commands. The full syntax is: hadoop fs [-fs ] [-conf ] [-D ] [-ls ] [-lsr ] [-du ] [-dus ] [-mv ] [-cp ] [-rm [-skipTrash] ]原创 2013-10-21 14:37:04 · 1366 阅读 · 0 评论 -
Hadoop学习笔记(五):一些关于HDFS的基本知识
当某个数据集大大小超出单个物理机的存储能力时,我们可以考虑使用集群。管理跨网络机器存储的文件系统叫做分布式文件系统(Distributed FileSystem)。随着多节点的引入,相应的问题也就出现了,例如其中最重要的一个问题就是如何保证在某个节点失败的情况下数据不会丢失。Hadoop中有一个核心子项目HDFS(Hadoop Distributed FileSystem)就是用来管理集群的存储问转载 2013-10-26 16:18:17 · 906 阅读 · 0 评论 -
hadoop学习笔记(2)
一个MapReduce作业是一个用户希望被执行的工作单元:它包括输入数据,MapReduce程序和配置信息。Hadoop通过把作业分成任务(tasks,分为map tasks 和reduce tasks两种)的形式来运行该作业。 有两种节点用来控制每个作业的执行: jobtracker通过把tasks分发到各个tasktrackers来运行,并协调系统上运行的所有作业。tasktrack转载 2013-10-26 15:31:06 · 779 阅读 · 0 评论 -
学习笔记(一)之示例程序:计算每年的最高温度MaxTemperature
adoo 本《hadoop学习笔记》系列是在《hadoop: the definitive guide 3th》的基础上通过网上额外搜集资料和查看hadoop的API再加上自己的实践方面的理解编写而成的,主要针对hadoop的特性和功能学习以及Hadoop生态圈中的其他工具(如Pig,Hive,Hbase,Avro等等)。另外设计到hadoop编程方面的请查阅另一个笔记系列:转载 2013-10-26 15:04:05 · 1111 阅读 · 0 评论 -
Hadoop学习笔记(六):Hadoop读写文件时内部工作机制
读文件 读文件时内部工作机制参看下图: 客户端通过调用FileSystem对象(对应于HDFS文件系统,调用DistributedFileSystem对象)的open()方法来打开文件(也即图中的第一步),DistributedFileSystem通过RPC(Remote Procedure Call)调用询问NameNode来得到此文件最开始几个block的文件位置转载 2013-10-26 16:27:58 · 823 阅读 · 0 评论 -
hadoop执行wordcount例子
1:下载hadoop。http://mirror.esocc.com/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz2:解压. tar -zxvf 3:修改hadoop-env.sh中的JAVA_HOME配置4:用hadoop编译wordcountA:代码位置/soft/hadoop/src/examples/org/ap转载 2013-10-26 19:07:55 · 2139 阅读 · 0 评论 -
Hadoop学习笔记(四):Hadoop中的streaming
Hadoop为MapReduce提供了一个允许你使用除了java以外的语言编写map,reduce函数的API:Hadoop Streaming使用标准流(standard streams)作为Hadoop和应用程序之间传输数据的接口。所以你可以使用任何语言编写map,reduce函数,只要它能够从标准输入流(stdin)中读入数据,以及向标准输出流(stdout)中写输出数据就行。 S转载 2013-10-26 15:57:02 · 783 阅读 · 0 评论 -
Hadoop学习笔记(三):Combiner funcitons
很多MapReduce程序受限于集群上可用的带宽,所以它会尽力最小化需要在map和reduce任务之间传输的中间数据。Hadoop允许用户声明一个combiner function来处理map的输出,同时把自己对map的处理结果作为reduce的输入。因为combiner function本身只是一种优化,hadoop并不保证对于某个map输出,这个方法会被调用多少次。换句话说,不管combine转载 2013-10-26 15:48:06 · 765 阅读 · 0 评论 -
cygwin安装
cygwin是一个在windows平台上运行的unix模拟环境,是cygnus solutions公司开发的自由软件(该公司开发了很多好东西,著名的还有eCos,不过现已被Redhat收购)。它对于学习unix/linux操作环境,或者从unix到windows的应用程序移植,或者进行某些特殊的开发工作,尤其是使用gnu工具集在windows上进行嵌入式系统开发,非常有用。 在进行转载 2013-10-19 21:10:11 · 1231 阅读 · 0 评论 -
用Maven构建Hadoop项目
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从201转载 2013-10-31 17:30:30 · 1300 阅读 · 0 评论