Apache Hadoop 2.9.0
请查看原文:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/LibHdfs.html
(如果转发,请标明出处)
简介
libhdfs是一个基于JNI的面向Hadoop的分布式文件系统( HDFS )的C语言接口。它为HDFS应用编程接口的子集提供C应用编程接口,以操作HDFS文件和文件系统。libhdfs 是Hadoop发行版本的一部分,并预编译了 $HADOOP_HDFS_HOME/lib/native/libhdfs.so 。libhdfs 能够跟Windows兼容,也能在Windows 下,hadoop-hdfs-project/hadoop-hdfs 源码目录下运行mvn compile进行编译。
APIs
libhdfs API 是 Hadoop FileSystem APIs的一个子集。Libhdfs 的头文件 $HADOOP_HDFS_HOME/include/hdfs.h描述了每个API的细节。
一个例子程序
#include "hdfs.h"
int main(int argc, char **argv) {
hdfsFS fs = hdfsConnect("default", 0);
const char* writePath = "/tmp/testfile.txt";
hdfsFile writeFile = hdfsOpenFile(fs, writePath, O_WRONLY |O_CREAT, 0, 0, 0);
if(!writeFile) {
fprintf(stderr, "Failed to open %s for writing!\n", writePath);
exit(-1);
}
char* buffer = "Hello, World!";
tSize num_written_bytes = hdfsWrite(fs, writeFile, (void*)buffer, strlen(buffer)+1);
if (hdfsFlush(fs, writeFile)) {
fprintf(stderr, "Failed to 'flush' %s\n", writePath);
exit(-1);
}
hdfsCloseFile(fs, writeFile);
}
怎么链接库
在libhdfs 源码目录下(hadoop-hdfs-project/hadoop-hdfs/src/CMakeLists.txt)查看test_libhdfs_ops.c的CMake 文件,类似这样的进行链接:gcc above_sample.c -I$HADOOP_HDFS_HOME/include -L$HADOOP_HDFS_HOME/lib/native -lhdfs -o above_sample
一般问题
比较常见的问题是在调用一个使用libhdfs的程序时,没有设置合适的CLASSPATH 。必须确保将CLASSPATH 设置为运行Hadoop本身需要的所有Hadoop jars 和包含 hdfs-site.xml的正确配置目录。通过通配符语法指定多个jars是无效的。通过运行 hadoop classpath --glob 或者hadoop classpath --jar 来生成部署需要的正确classpath是非常有用的,可以查看 Hadoop Commands Reference来获得这个命令的详细信息。
线程安全
libdhfs 是线程安全的。
① 并发和Hadoop FS“句柄”
Hadoop FS实现包括一个FS句柄缓存,该缓存基于NameNode的URI以及用户连接进行缓存。因此,对hdfsConnect 的所有调用都将返回相同的句柄,但对具有不同用户的hdfsConnectAsUser 的调用将返回不同的句柄。但是,由于HDFS客户端句柄完全是线程安全的,因此这与并发性无关。
② 并发和libhdfs/JNI
对JNI的libhdfs调用应该始终创建线程本地存储,因此(理论上) libhdfs应该与对Hadoop FS的底层调用一样的安全。
------------全文完 -----------------
举报/反馈