python批量下载pdf文件大小,Python从一个网站上抓取PDF文件为什么它们都损坏了而且大小相同?...

希望这次会是一个简单的。我正在尝试做一些网络垃圾,我从一个页面下载所有的pdf文件。目前我正在从一个体育网页抓取文件进行练习。我使用automatheboringstuff+a来自另一个用户的帖子(retrieve links from web page using python and BeautifulSoup)来编写这段代码。在import requests

import time

from bs4 import BeautifulSoup, SoupStrainer

r = requests.get('http://secsports.go.com/media/baseball')

soup = BeautifulSoup(r.content)

for link in BeautifulSoup(r.text, parseOnlyThese=SoupStrainer('a')):

if link.has_attr('href'):

if 'pdf' in str(link):

image_file = open(os.path.join('E:\\thisiswhereiwantmypdfstogo', os.path.basename(link['href'])), 'wb')

for chunk in r.iter_content(100000):

image_file.write(chunk)

image_file.close()

当所有的文件都被打开时,我会说所有的文件都打开了

Adobe Acrobat无法打开“FILENAMEHERE”,因为它不是受支持的文件类型,或者因为文件已损坏(例如,它是作为电子邮件附件发送的,并且未正确解码)

一个让我知道写进程出错的一个小提示是,在运行image之后_文件.写入(chunk)它为每个文件输出相同的数字。在

以下是文件夹中PDF的外观:

TTfzq.png

我想我只需要在编写过程中的某个地方添加一个参数,以使它正常工作,但我不知道它会是什么。我做了一些谷歌搜索的答案,也在这里搜索了一点,但没有找到答案。在

谢谢!在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值