php 使用 hdfs 分布式存储海量小文件

php可以通过thrift连接hbase,同样php可以通过thrift读取hadoop资源(HDFS资源)。
准备:

php需要thrift的libary

thrift 安装参见 我上一篇文章

packages:hadoop-0.20.2\src\contrib\thriftfs\gen-php  // 搜索hadoop 下载源码 ,在hadoop源码包里

  1. <?php  
  2.     $GLOBALS['THRIFT_ROOT'] = ROOTPATH . '/lib/thrift';  
  3.     require_once($GLOBALS['THRIFT_ROOT'].'/Thrift.php');  
  4.     require_once($GLOBALS['THRIFT_ROOT'].'/transport/TSocket.php');  
  5.     require_once($GLOBALS['THRIFT_ROOT'].'/transport/TBufferedTransport.php');  
  6.     require_once($GLOBALS['THRIFT_ROOT'].'/protocol/TBinaryProtocol.php');  
  7.     require_once($GLOBALS["THRIFT_ROOT"] . "/packages/hadoopfs/ThriftHadoopFileSystem.php");  
  8.     $hadoop_socket = new TSocket("localhost", 59256);  
  9.     $hadoop_socket -> setSendTimeout(10000); // Ten seconds  
  10.     $hadoop_socket -> setRecvTimeout(20000); // Twenty seconds  
  11.     $hadoop_transport = new TBufferedTransport($hadoop_socket);  
  12.     $hadoop_protocol = new TBinaryProtocol($hadoop_transport);  
  13.     $hadoopClient = new ThriftHadoopFileSystemClient($hadoop_protocol);  
  14.     $hadoop_transport -> open();  
  15.     try {  
  16.         // create directory  
  17.         $dirpathname = new Pathname(array("pathname" => "/user/root/hadoop"));  
  18.         if($hadoopClient -> exists($dirpathname) == TRUE) {  
  19.             echo $dirpathname -> pathname . " exists.\n";  
  20.         } else {  
  21.             $result = $hadoopClient -> mkdirs($dirpathname);  
  22.         }  
  23.         // put file  
  24.         $filepathname = new Pathname(array("pathname" => $dirpathname -> pathname . "/hello.txt"));  
  25.         $localfile = fopen("hello.txt""rb");  
  26.         $hdfsfile = $hadoopClient -> create($filepathname);  
  27.         while(true) {  
  28.             $data = fread($localfile, 1024);  
  29.             if(strlen($data) == 0)  
  30.                 break;  
  31.             $hadoopClient -> write($hdfsfile$data);  
  32.         }  
  33.         $hadoopClient -> close($hdfsfile);  
  34.         fclose($localfile);  
  35.         // get file  
  36.         echo "read file:\n";  
  37.         print_r($filepathname);  
  38.         $data = "";  
  39.         $hdfsfile = $hadoopClient -> open($filepathname);  
  40.         print_r($hdfsfile);  
  41.         while(true) {  
  42.             $data = $hadoopClient -> read($hdfsfile, 0, 1024);  
  43.             if(strlen($data) == 0)  
  44.                 break;  
  45.             print $data;  
  46.         }  
  47.         $hadoopClient -> close($hdfsfile);  
  48.         echo "listStatus:\n";  
  49.         $result = $hadoopClient -> listStatus($dirpathname);  
  50.         print_r($result);  
  51.         foreach($result as $key => $value) {  
  52.             if($value -> isdir == "1")  
  53.                 print "dir\t";  
  54.             else  
  55.                 print "file\t";  
  56.             print $value -> block_replication . "\t" . $value -> length . "\t" . $value -> modification_time . "\t" . $value -> permission . "\t" . $value -> owner . "\t" . $value -> group . "\t" . $value -> path . "\n";  
  57.         }  
  58.         $hadoop_transport -> close();  
  59.     } catch(Exception $e) {  
  60.         print_r($e);  
  61.     }  
  62. ?> 
启动hadoop的thrift
hadoop-0.20.2\src\contrib\thriftfs\scripts\start_thrift_server.sh 59256

problem one:
在系统目录创建文件,而不是在hadoop目录中创建文件
原因:
thrift启动时加载默认的配置文件
解决方法:
修改start_thrift_server.sh文件
TOP=/usr/local/hadoop-0.20.2
CLASSPATH=$CLASSPATH:$TOP/conf

problem two:
java.lang.NullPointerException
    at     org.apache.hadoop.thriftfs.HadoopThriftServer$HadoopThriftHandler.write(HadoopThriftServer.java:282)
at     org.apache.hadoop.thriftfs.api.ThriftHadoopFileSystem$Processor$write.process(Unknown Source)
at org.apache.hadoop.thriftfs.api.ThriftHadoopFileSystem$Processor.process(Unknown Source)
at com.facebook.thrift.server.TThreadPoolServer$WorkerProcess.run(Unknown Source)
at         java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
at java.lang.Thread.run(Thread.java:662)
原因:
java返回的map hash id为long类型,而php(32位)无法存储long类型的数据,导致转换成float数据后丢失精度。
private long nextId = new Random().nextLong();
java返回数据:4207488029786584864
php获取数据:4.2074880297866E+18
java获得php传递数据:4207488029786585088
解决方法:
修改hadoop-0.20.2\src\contrib\thriftfs\if\hadoopfs.thrift文件
修改
struct ThriftHandle {
  i64 id
}

struct ThriftHandle {
  string id
}
重新生成php packages
thrift --gen php hadoopfs.thrift
修改org.apache.hadoop.thriftfs.api.ThriftHandle类
修改
public long id;
为:
public String id;
修改相应的程序
org.apache.hadoop.thriftfs.HadoopThriftServer
修改
long id = insert(out);
ThriftHandle obj = new ThriftHandle(id);

long id = insert(out);
String _id = String.valueOf(id);
ThriftHandle obj = new ThriftHandle(_id);
修改相应的程序
重新打包,启动hadoop的thrift:
hadoop-0.20.2\src\contrib\thriftfs\scripts\start_thrift_server.sh 59256

这样php就可以连接并且获取hadoop中的资源了


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值