爬虫--解析文本存储文本时,如何选择原格式进行存储?

在爬取文件的时候,有时候会根据要求生成需要的文件,以下代码强制转换文件格式,但是打开文件时可能出现乱码情况:

with open(filePath + '#例如.txt', "wb") as f:
    for chunk in req.iter_content(chunk_size=1024):  # 每次加载1024字节
    f.write(chunk)
f.close()

 但是如果要求存储原文件格式,需要的代码如下:

from urllib.parse import urlparse

#在想要查询的网站下面添加以下代码
k = urlparse(fileUrl)
file_path = k.path
file_name = os.path.basename(k.path)
_,file_suffix = os.path.splitext(file_name)

with open(filePath + file_suffix, "wb") as f:
    for chunk in req.iter_content(chunk_size=1024):  # 每次加载1024字节
    f.write(chunk)
f.close()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值