关于Hadoop以及S3的几个坑

最新推荐文章于 2024-07-10 12:10:09 发布

UNOboros

最新推荐文章于 2024-07-10 12:10:09 发布

阅读量5.9k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/UNOboros/article/details/50173669

版权

本文分享了在AWS上使用Hadoop时遇到的一些问题，包括S3文件系统URI转换导致的访问问题，分布式缓存文件在不同MR迭代间的重用限制，以及在S3上操作文件系统和本地文件时遇到的检查和访问问题，并提供了相应的解决方案。

摘要由CSDN通过智能技术生成

首先是关于AWS上用distributive cache files的问题，由于AWS用的是S3文件系统，而文件cache以后是HDFS文件系统，那么当我们直接去取URI的时候就会发生一件诡异的事情：原来的s3://被转换成了s3:/，而且这种转换是不可避免的，不论你手工加slash什么的都没用…… 这个问题卡了我一晚上，搜了好多资料，最后才发现最完美的解决方案：

在cache的时候用别名来标记文件，比如

job.addCacheFile(new URI(path[1] + "/data.txt"+"#data.txt"));

这个＃就是别名，然后在读取的时候可以用别名读取：

new File("./data.txt")

然后就是关于cache file重用的问题，比如在不同的MR迭代之间传递数据……据我研究又一个晚上的结果，这是不可能的！因为每次去cache同一个file的时候，上一个file也在cache中（而且没法删除掉），这样就会有两个不同的时间戳，系统就会报错。我试着hack时间戳，但是依然没用……所以估计Hadoop的设计就是cache以后就不能更改了。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于Hadoop以及S3的几个坑

首先是关于AWS上用distributive cache files的问题，由于AWS用的是S3文件系统，而文件cache以后是HDFS文件系统，那么当我们直接去取URI的时候就会发生一件诡异的事情：原来的s3://被转换成了s3:/，而且这种转换是不可避免的，不论你手工加slash什么的都没用…… 这个问题卡了我一晚上，搜了好多资料，最后才发现最完美的解决方案：在cache的时候用别名来标记
复制链接

扫一扫

专栏目录

UNOboros CSDN认证博客专家 CSDN认证企业博客

码龄10年

38: 原创

18万+: 周排名

2万+: 总排名

9万+: 访问

: 等级

1356: 积分

47: 粉丝

80: 获赞

15: 评论

106: 收藏

私信

关注

热门文章

分类专栏

最新评论

火车上的醉汉问题（一个非常深奥的问题）
zrsix360: Solution应该是错的，或者表述令人误解。正解是：设人在第n节车厢时，期望用E(n)步掉下火车（等价于走到不存在的n=0和n=N+1车厢）。很明显，在第n节车厢，下一步有一半的概率走到n-1或n+1车厢。而接下来在n-1或n+1车厢，掉下火车的期望步数分别为E(n-1)或E(n+1)。由此可得： E(n) = 1 + 0.5 E(n-1)+ 0.5 E(n+1)，E(N+1) = E(0) = 0。整理一下（配一次等差数列求得E(n+1)-E(n)通项，再求E(n)通项），可得通项公式: E(n+1) = n [E(1) -E(0)] - (n+1)n +E(1) 将E(N+1) =E(0) =0带入上式，可得 E(1) = N 因此起始于第一节车厢，跌落火车的步长期望为N。
note:SMO算法存在致命缺陷
星独: 不明白博主说的C偏移是什么意思？但是我用Libsvm发现简单的一维问题，C特别大时，预测得到的结果支持向量可能在带内，就是有误差产生。最后定位应该是SMO的问题，初步估计是不收敛或者找不到最优解，反正就是最后的结果不完全满足KKT条件。我不确定这种情况产生的具体原因，但是感觉和你这个所得很像，如果博主有空可以详细写一篇
找到唯一的那个数——对于异或运算的研究
天高任毛飞: 上面的代码，在下面这个数组上，遭遇了滑铁卢，输出结果 4 int a [] = {1,2,3,1,2,3,8,6,4,9,8,6,4};
火车上的醉汉问题（一个非常深奥的问题）
逗泥丸的平方: 一个收敛的级数就搞定了吧.好像很复杂?
方向盘应该转多少度？
adlindary: 。简单的观察后发现，一辆汽车的运动无非是两种运动的组合——圆周运动和直线运动（轮子不打滑）。一条连续的行车轨迹可以被分解为若干个圆周运动和直线运动的片段，注意到直线可以看作是一个半径无穷大的圆周，所以所有的运动都可以被拆借为不同半径的圆周运动

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。