Python爬虫下载PDF文件

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_38944746/article/details/79126124

requests库

def get_file_content(date,files):
    time = date[0:4] + date[5:7]
    file_name = files[0][1]
    suburl = homepage + time + r'/' + files[0][0]     # 拼接出正确的URL
    r = requests.get(suburl)
    fo = open(file_name,'wb')                         # 注意要用'wb',b表示二进制,不要用'w'
    fo.write(r.content)                               # r.content -> requests中的二进制响应内容:以字节的方式访问请求响应体,对于非文本请求
    fo.close()

urllib

 u = urllib.request.urlopen(suburl)
    f = open(file_name, 'wb')

    block_sz = 8192
    while True:
        buffer = u.read(block_sz)
        if not buffer:
            break

        f.write(buffer)
    f.close()
阅读更多
换一批

没有更多推荐了,返回首页