希望这次会是一个简单的。我正在尝试做一些网络垃圾,我从一个页面下载所有的pdf文件。目前我正在从一个体育网页抓取文件进行练习。我使用automatheboringstuff+a来自另一个用户的帖子(retrieve links from web page using python and BeautifulSoup)来编写这段代码。在import requests
import time
from bs4 import BeautifulSoup, SoupStrainer
r = requests.get('http://secsports.go.com/media/baseball')
soup = BeautifulSoup(r.content)
for link in BeautifulSoup(r.text, parseOnlyThese=SoupStrainer('a')):
if link.has_attr('href'):
if 'pdf' in str(link):
image_file = open(os.path.join('E:\\thisiswhereiwantmypdfstogo', os.path.basename(link['href'])), 'wb')
for chunk in r.iter_content(100000):
image_file.write(chunk)
image_file.close()
当所有的文件都被打开时,我会说所有的文件都打开了
Adobe Acrobat无法打开“FILENAMEHERE”,因为它不是受支持的文件类型,或者因为文件已损坏(例如,它是作为电子邮件附件发送的,并且未正确解码)
一个让我知道写进程出错的一个小提示是,在运行image之后_文件.写入(chunk)它为每个文件输出相同的数字。在
以下是文件夹中PDF的外观:
我想我只需要在编写过程中的某个地方添加一个参数,以使它正常工作,但我不知道它会是什么。我做了一些谷歌搜索的答案,也在这里搜索了一点,但没有找到答案。在
谢谢!在