爬虫--解析文本存储文本时，如何选择原格式进行存储？

最新推荐文章于 2024-09-11 21:08:54 发布

ChiXiaoan_HP

最新推荐文章于 2024-09-11 21:08:54 发布

阅读量1.1k

点赞数

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ChiXiaoan_HP/article/details/132912734

版权

在爬取文件的时候，有时候会根据要求生成需要的文件，以下代码强制转换文件格式，但是打开文件时可能出现乱码情况：

with open(filePath + '#例如.txt', "wb") as f:
    for chunk in req.iter_content(chunk_size=1024):  # 每次加载1024字节
    f.write(chunk)
f.close()

但是如果要求存储原文件格式，需要的代码如下：

from urllib.parse import urlparse

#在想要查询的网站下面添加以下代码
k = urlparse(fileUrl)
file_path = k.path
file_name = os.path.basename(k.path)
_,file_suffix = os.path.splitext(file_name)

with open(filePath + file_suffix, "wb") as f:
    for chunk in req.iter_content(chunk_size=1024):  # 每次加载1024字节
    f.write(chunk)
f.close()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬虫--解析文本存储文本时，如何选择原格式进行存储？

【代码】爬虫--解析文本存储文本时，如何选择原格式进行存储？
复制链接

扫一扫

ChiXiaoan_HP CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

185万+: 周排名

80万+: 总排名

3861: 访问

: 等级

32: 积分

0: 粉丝

2: 获赞

1: 评论

2: 收藏

私信

关注

热门文章

最新评论

爬虫--解析文本存储文本时，如何选择原格式进行存储？
CSDN-Ada助手: 这篇博客非常实用！你对于解析文本存储文本时如何选择原格式进行存储的问题进行了清晰的解释和提供了相关的代码，让读者可以轻松上手。非常感谢你的分享！如果你想继续探索这个领域，可以进一步了解一些相关的知识和技能。比如，你可以学习如何使用正则表达式来解析文本，这是一种非常强大的工具；另外，你还可以学习如何使用数据库来存储解析后的文本数据，这样可以更方便地进行数据管理和查询。当然，这些只是建议，希望你能够根据自己的兴趣和需求来选择进一步学习的内容。期待你未来更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。