进程池爬取今日头条图片

最新推荐文章于 2024-07-12 17:03:16 发布

m0_46652894

最新推荐文章于 2024-07-12 17:03:16 发布

阅读量153

点赞数 1

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46652894/article/details/105557409

版权

from multiprocessing.pool import Pool
import json
import os
import re
import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/71.0.3578.98 Safari/537.36",
}
# 图片地址所在的json
pattern = re.compile('JSON.parse\("(.*?)"\),', re.S)


def get_img_urls(page_url):
    """图片地址列表爬取"""
    response = requests.get(page_url, headers=headers)
    text = response.text
    img_str = re.findall(pattern, text)
    # 获取图片标题
    title = re.findall('<title>(.*?)</title>', text)[0]
    # 图片保存位置
    path = fr'./{title}/'
    if not os.path.exists(path):
        os.mkdir(path)
    if img_str:
        img_str = img_str[0]

    # 图片地址处理
    img_str = img_str.replace('u002F', '').replace('\\\\\\', '/').replace('\\', '')
    img_list = json.loads(img_str)
    img_urls = []
    for sub_images in img_list['sub_images']:
        img_urls.append(sub_images['url_list'][2]['url'])

    return path, img_urls


def down_img(path, img_url):
    _, name = os.path.split(img_url)
    path_name = os.path.join(path, name)
    # print(path_name, name)
    response = requests.get(img_url)
    content = response.content
    with open(f'{path_name}.jpg', 'wb') as f:
        print('下载：', name)
        f.write(content)


if __name__ == '__main__':
    pool = Pool(10)
    url = 'https://www.toutiao.com/a6810668734764548621/'
    path, img_urls = get_img_urls(url)
    for img_url in img_urls:
        # 非阻塞
        pool.apply_async(down_img, args=(path, img_url))
        # 阻塞式
        # pool.apply(down_img, args=(path, img_url))

    pool.close()
    # 调用join之前，先调用close函数，否则会出错。
    # 执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束
    pool.join()

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄5年

18
原创

13
点赞

43
收藏

9
粉丝

关注

私信

热门文章

分类专栏

笔记 1篇
Linux 2篇
JavaScript 1篇

最新评论

python下载 m3u8 视频
离歌、: 你好，新手爬取ts视频，网上随便找了一个无加密m3u8格式的视频（看了下里面的ts连接并拼接好url，试了下都是可以直接复制手动下载的），但是我按下面代码遍历文本中的url批量下载，在文件夹中看到的下载结果要么是0KB要么就是1KB，每次只有最后一个URl是下载成功的，后面我就单独拿出url指定去把每条下载下来，ts视频就没问题，后面才发现我这个翻车代码竟然一次只能下载一个视频，大神能教教吗，感谢感谢！ [code=python] def read_txt(txt_path,new_path): with open(txt_path, 'r', encoding='utf-8') as f: num = 0 for url in (f.readlines()): num = num + 1 response = requests.get(url, stream=True) with open(os.path.join(new_path, str(num) + '.ts'), 'wb') as ts: print(str(num) + '.ts') print("文件长度为：", len(response.content)) start = time.process_time() for chunk in tqdm(response.iter_content(chunk_size=10240)): ts.write(chunk) # Response.close end = time.process_time() print("下载时间为：", end-start) [/code]
python进度条下载文件
浪里划船: # 判断目录是否存在 if os.path.isdir(path_) and not os.path.exists(path_): print('创建文件夹', path_) os.mkdir(path_)
python进度条下载文件
kanhai0718: 为了拿到Content-Length请求了两次，会比直接下载更慢吧
python进度条下载文件
漠北尘-Gavin: Exception ignored in: <function _ProactorBasePipeTransport.__del__ at 0x0000026712BD8310> Traceback (most recent call last): File "D:\ProgramData\anaconda3\lib\asyncio\proactor_events.py", line 116, in __del__ self.close() File "D:\ProgramData\anaconda3\lib\asyncio\proactor_events.py", line 108, in close self._loop.call_soon(self._call_connection_lost, None) File "D:\ProgramData\anaconda3\lib\asyncio\base_events.py", line 719, in call_soon self._check_closed() File "D:\ProgramData\anaconda3\lib\asyncio\base_events.py", line 508, in _check_closed raise RuntimeError('Event loop is closed') RuntimeError: Event loop is closed, 后面会变慢，而且在程序最后还会抛出这个错误
python进度条下载文件
漠北尘-Gavin: content_length : 388756569 start downloading：_7oWZq_s_Sk.mkv: 96%|########################################################################################3 | 356M/371M [11:11<26:46, 9.60k/s] 其实到后面速度还是会很慢啊，为啥呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。