Python中字符串的解压缩

最新推荐文章于 2024-09-18 06:30:00 发布

lming_08

最新推荐文章于 2024-09-18 06:30:00 发布

阅读量3.9k

点赞数

分类专栏： Python 文章标签： python mapreduce 压缩

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lming_08/article/details/40915013

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

今天在用Streaming-Python处理一个MapReduce程序时，发现reducer失败，原因为耗费内存达到极限了！仔细查看代码时，发现有一个集合里保存着URL，而URL长度是比较长的，直接保存确实是耗费内存，于是想到用压缩存储，然后用的时候再解压，虽然处理时间增加，但是耗费内存大大降低！

具体就是使用zlib模块

import zlib
 
raw_data = "hello,world,ooooooooooooxxxxxxxxxxx"
zb_data = zlib.compress(raw_data)
 
print "len(raw_data)=%d, len(zb_data)=%d, compression ratio=%.2f"\
      % (len(raw_data), len(zb_data), float(len(zb_data))/len(raw_data))
 
# len(raw_data)=35, len(zb_data)=25, compression ratio=0.71
raw_data2 = zlib.decompress(zb_data)
print raw_data2

如果存在网络传输，上面的方法可能失效；例如我跑了一个MapReduce，mapper中压缩，reducer中解压，结果报错：

Traceback (most recent call last):
  File "/hadoop/yarn/local/usercache/lming_08/appcache/application_1415110953023_46173/container_1415110953023_46173_01_000018/./build_visitor_company_ulti_info_red.py", line 25, in <module>
    urllist += zlib.decompress(urlitem) + ""
zlib.error: Error -3 while decompressing data: incorrect header check
log4j:WARN No appenders could be found for logger (org.apache.hadoop.hdfs.DFSClient).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

暂时还没找到有效办法。

参考： http://my.oschina.net/1123581321/blog/176570

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

lming_08 CSDN认证博客专家 CSDN认证企业博客

码龄15年

66: 原创

17万+: 周排名

83万+: 总排名

35万+: 访问

: 等级

3852: 积分

156: 粉丝

82: 获赞

60: 评论

304: 收藏

私信

关注

热门文章

分类专栏

机器学习 14篇
网络编程 1篇
Hadoop 5篇
数据结构与算法 4篇
点云三维重建 5篇
PCL 7篇
数学 3篇
C/C++ 6篇
工具 4篇
OpenCV 2篇
Java 2篇
R 1篇
Python 12篇
Scala 3篇
计算广告学
爬虫 1篇
Linux 2篇
Spark 2篇
database 1篇

最新评论

使用TensorFlow比较逻辑回归交叉熵与平方误差损失函数结果
CSDN-Ada助手: 非常感谢博主分享关于使用TensorFlow比较逻辑回归交叉熵与平方误差损失函数结果的文章，我觉得这篇文章非常有深度和实用性。这样的技术文章对于其他用户来说也是非常有帮助的。下一篇你可以继续就TensorFlow的其他算法或模型进行深入探讨，比如深度学习的卷积神经网络或循环神经网络的应用，相信会有更多读者受益于你的分享。期待你的下一篇技术文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Diagnostics: Exception from container-launch
qq_41981069: 博主能回复一下这个在哪配置嘛
Diagnostics: Exception from container-launch
Amos_Mu: 对啊你说的这个在哪配置呀
点云的曲面法向量估计
qq_38523773: 博主，为什么我的显示是无法打开pdb文件，c盘
PCL源码剖析之MarchingCubes算法
weixin_45654025: 您好，请问在确定等值面的时候，就是用的最近邻点的切平面作为等值面么？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。