python批量下载pdf文件大小,Python从一个网站上抓取PDF文件为什么它们都损坏了而且大小相同？...

最新推荐文章于 2023-10-13 15:07:45 发布

特大号先生

最新推荐文章于 2023-10-13 15:07:45 发布

阅读量694

点赞数

文章标签： python批量下载pdf文件大小

希望这次会是一个简单的。我正在尝试做一些网络垃圾，我从一个页面下载所有的pdf文件。目前我正在从一个体育网页抓取文件进行练习。我使用automatheboringstuff+a来自另一个用户的帖子(retrieve links from web page using python and BeautifulSoup)来编写这段代码。在import requests

import time

from bs4 import BeautifulSoup, SoupStrainer

r = requests.get('http://secsports.go.com/media/baseball')

soup = BeautifulSoup(r.content)

for link in BeautifulSoup(r.text, parseOnlyThese=SoupStrainer('a')):

if link.has_attr('href'):

if 'pdf' in str(link):

image_file = open(os.path.join('E:\\thisiswhereiwantmypdfstogo', os.path.basename(link['href'])), 'wb')

for chunk in r.iter_content(100000):

image_file.write(chunk)

image_file.close()

当所有的文件都被打开时，我会说所有的文件都打开了