首先,我是Python新手。这与问题无关,但我得提一下。在
我正在创建一个爬虫作为我的第一个项目,以了解如何在Python中工作,但到目前为止,这是我的主要问题。。。了解使用requests和pathos.multiprocessing时在终端中“如何获得多个进度条”。在
我尝试了所有的东西,我只想有更漂亮的输出,所以我决定添加progressbars。我使用tqdm,因为我喜欢它的外观,而且它似乎最容易实现。在
这是我的方法,目的是下载文件。在def download_lesson(self, lesson_data):
if not 'file' in lesson_data:
return print('=> Skipping... File {file_name} already exists.'.format(file_name=lesson_data['title']))
response = requests.get(lesson_data['video_source'], stream=True)
chunk_size = 1024
with open(lesson_data['file'], 'wb') as file:
progress = tqdm(
total=int(response.headers['Content-Length']),
unit='B',
unit_scale=True
)
for chunk in response.iter_content(chunk_size=chunk_size):
if chunk:
progress.update(len(chunk))
file.write(chunk)
progress.close()
print('=> Success... File "{file_name}" has been downloaded.'.format(file_name=lesson_data['title']))
我通过Processing运行该方法:
^{pr2}$
所以一切都很好,因为我在Pool中使用processes=1。但是当我运行多个进程时,比如说processes=3,事情开始变得奇怪,我得到了一个又一个的多个进程。在
我在tqdm documentation中发现了position的参数。这清楚地说明了我在这件事上所需要的。在position : int, optional
Specify the line offset to print this bar (starting from 0) Automatic if unspecified. Useful to manage multiple bars at once (eg, from threads).
但是,我不知道如何设置这个位置。我尝试了一些奇怪的方法,比如添加一个变量,该变量本身被支持递增一个,但是每当download_lesson方法被运行时,它似乎不会执行任何递增操作。总是0,所以位置总是0。在
看来我对这个案子不太了解。。。欢迎提供任何提示、提示或完整的解决方案。谢谢您!在
更新1:
我发现我也可以将另一个参数传递给映射,所以我传递正在设置的进程的数量。(例如过程=2)p = Pool(config['threads'])
p.map(c.download_lesson, cs, range(config['threads']))
所以,在我的方法中,我试图打印出这个参数,事实上我确实得到了0和{},因为我在这个例子中运行2进程。在
但这似乎没有任何作用。。。在progress = tqdm(
total=int(response.headers['Content-Length']),
unit='B',
unit_scale=True,
position=progress_position
)
我仍然得到相同的问题重叠进度条。当我手动将位置设置为(例如10)时,它在终端跳跃,所以位置确实移动,仍然与ofc重叠,因为现在两者都被设置为10。但如果动态设置,它似乎也不起作用。我不明白我的问题是什么。。。就像当map运行这个方法两次时,它仍然为两个进度条提供最新的设置位置。我到底做错了什么?在