python从网址爬图片协程_python 利用协程(asyncio)爬取网页简单模板

最新推荐文章于 2022-07-11 07:35:00 发布

weixin_39909859

最新推荐文章于 2022-07-11 07:35:00 发布

阅读量117

点赞数

文章标签： python从网址爬图片协程

import aiohttp

import asyncio

from lxml import etree

import time

import json

import pandas as pd

result=[]

urls=[]

for i in range(10):

urls.append('https://movie.douban.com/top250?start={}&filter='.format(i*25))

print(urls)

async def get_title(url):

async with aiohttp.ClientSession()as session:

async with session.get(url) as resp:

global result

html=await resp.read() #不能用 text

titles=etree.HTML(html).xpath('.//div[@id="content"]/div/div[1]/ol')

for i in titles[0]: #这个[0]一定要加

print(url)

dict={}

dict['paiming']=int(i.xpath('.//div/div[1]/em/text()')[0])

dict['rank']=i.xpath('.//div / div[2] / div[2] / div / span[2]/text()')[0]

dict['title']=i.xpath('.//div[@class="hd"]/a/span[1]/text()')[0]

result.append(dict)

def main():

loop=asyncio.get_event_loop()

tasks=[get_title(url) for url in urls]

loop.run_until_complete(asyncio.wait(tasks))

loop.close()

result.sort(key=lambda x: x["paiming"]) #排序

s = json.dumps(result, indent=4, ensure_ascii=False)

with open('xiecheng', 'w', encoding='utf-8') as f:

f.write(s)

if __name__ == '__main__':

start = time.time()

main() # 调用方

print('总耗时：%.5f秒' % float(time.time()-start))

速度还是很快的 ~

不知道有没有其他的比较好用的库(gevent?,celery?)，求大佬指点

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39909859

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Python爬虫系列】_020.异步协程asyncio

weixin_50296259的博客

09-14

110

asyncio是用来编写并发代码的库，使用语法。asyncio被用作多个提供高性能Python异步框架的基础，包括网络和网站服务，数据库连接库，分布式任务队列等等。asyncio往往是构建IO密集型和高层级结构化网络代码的最佳选择。

Python 彻底解读协程与异步【看完包会】

浪子燕青的博客

10-21

3518

title: Python 协程与异步 copyright: true top: 0 date: 2018-08-11 10:15:50 tags: categories: Python进阶笔记 permalink: password: keywords: 协程 description: Python2.7中用代码实现协程，同时区分同步与异步，以及异步的表现形式，回调与协程。像烟花也是过一生，...

参与评论您还未登录，请先登录后发表或查看评论

python3爬虫中异步协程的用法

09-16

在本篇文章里小编给大家整理的是关于python3爬虫中异步协程的用法，需要的朋友们可以学习参考下。

python爬虫之异步协程爬取图片

weixin_45631151的博客

09-01

479

python爬虫之异步协程爬取图片 # -*- coding = utf-8 -*- # @Time : 2021/9/1 9:03 # @Software : PyCharm import asyncio import aiohttp urls = [ 'https://scpic3.chinaz.net/Files/pic/pic9/202108/apic34826_s.jpg', 'https://scpic3.chinaz.net/Files/pic/pic9/202108/api

python爬虫之协程理解爬取照片的简单版

qq_52154193的博客

07-28

277

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、引入库二、使用步骤1.上代码总结前言协程就是异步爬取能够快速的爬取数据高效利用CPU 当发生等待事件就可以执行其他的任务一、引入库 import asyncio #import requests 正步代码异步会被中断 import aiohttp import aiofiles import time 二、使用步骤 1.上代码代码如下（示例）： import asyncio #import request

利用Python爬虫批量采集下载图片

html模板下载

03-12

245

介绍：大家好我是梦曦，今天发的是python爬虫批量下载图片的源码考虑到有一些人不会Python，但是因为一些原因比如某个网站好看的图片很多，但是自己不会爬虫，只能一个个保存，太麻烦了所以就带来了这个源码，源码比较简陋，各位python大神勿喷。（暂时没写可以支持翻页下载的后续能会更新出来）使用方法安装Python3的环境及Python的IDE编辑器，推荐使用Pycharm 注：项目文件夹下新建一个名为“imgs”的文件夹否则图片可能无法保存到本地网盘下载地址： https://zi

python学习笔记（八）协程、爬取网页

君浪的博客

04-25

999

协程又叫微线程，但与线程是完全不同的概念。线程之间是并发的，开发者不知道它们在什么时候切换；而协程是属于一个线程的，它们之间的切换开发者是明确的。在介绍完协程后会给出一个使用urllib爬取网页中图片的地址的例子演示协程。

墨鱼菜鸡

07-11

1010

From：https://www.cnblogs.com/bravexz/p/7741633.html 爬虫应用 asyncio 模块 ( 高性能爬虫 )：https://www.cnblogs.com/morgana/p/8495555.html python异步编程之asyncio(百万并发)：https://www.cnblogs.com/sh...

ant_nest：基于python3.6 +的简单，清晰，快速的Web爬网程序框架，由asyncio提供支持

02-05

它强调简洁、高效和速度，并利用了Python的`asyncio`库来实现异步操作，以提高爬取网页数据时的性能。在Web爬虫开发中，异步处理是至关重要的，因为它允许程序同时处理多个请求，而不是逐一等待响应，从而显著提升了...

2024最新python爬虫面试题《PPT文档》

05-09

Python爬虫技术是数据获取...以上是Python爬虫面试中可能涉及的关键知识点，涵盖了从基础知识到高级应用的全貌。通过深入理解和实践这些内容，可以为面试做好充分准备，同时也为成为一名优秀的爬虫工程师打下坚实基础。

python 异步协程爬取高清图片

weixin_33807284的博客

12-05

548

为了给公众号配图，找一些免费的高清图片。不过瘾，干脆爬下来好了。代码如下： #coding=utf-8 __author__ = 'sixkery' import requests, asyncio, aiohttp import os, time def run_time(fn): '''装饰器，用于查看图片下载运行时间''' def wrapper(*args, **...

python异步模块_python异步asyncio模块的使用

weixin_39978257的博客

02-20

281

本文首发于知乎异步是继多线程、多进程之后第三种实现并发的方式，主要用于IO密集型任务的运行效率提升。python中的异步基于yield生成器，在讲解这部分原理之前，我们先学会异步库asyncio的使用。本文主要讲解asyncio模块的通用性问题，对一些函数细节的使用就简单略过。本文分为如下部分最简单的使用另一种常见的使用方式一个问题一般函数下的异步理解异步、协程单个线程的的异步爬虫最简单的使用im...

探索ASP.NET Core中的IStartupFilter

weixin_30415113的博客

01-16

196

原文：Exploring IStartupFilter in ASP.NET Core 作者：Andrew Lock 译者：Lamond Lu 在本篇博客中，我将介绍一下IStartupFilter, 以及如何在ASP.NET Core中使用它。在下一篇博客中，我将介绍一下如何在外部中间件中使用IStartupFilter IStartupFilter接口 IStartupFilter接口存在...

python3中aiohttp+asyncio 高效率爬取图片例子，本地保存

Aries8842的博客

03-06

6497

import asyncio import aiohttp import time import random import os from lxml import etree path='F:\\wuso\\' #文件保存路径 targe_url=[] for i in range(0,200):#total 178 建立任务链接 ta...

Flutter-UI- ImageView、icon、Button

SHTLoveXX的专栏

09-18

743

button 文字与边框、间距的设置： /* * button 文字与边框、间距设置 * */ class MyButtonTheme extends StatelessWidget { @override Widget build(BuildContext context) { return Column( children: <Widget>[ ButtonTheme( height: 10,

[Python爬虫]1.豆瓣电影Top250

博客

06-24

597

# 豆瓣电影Top250 import requests from bs4 import BeautifulSoup for page in range(10): page = page*25 url = "https://movie.douban.com/top250?start={}".format(page) response = requests.get(url).t

python协程多任务爬取虎牙美女主播图片

托尼stark的博客

04-13

1121

使用正则、协程多任务爬取虎牙海量美女图片，斗鱼也一样，只需将正则表达式中的内容换一下即可，由于斗鱼网站的变化，之前的正则已用不了，现贴出新的： re.findall(r"https://[^(\s|\"|})]*?\.jpg",url_content) 1.首先打开百度搜索虎牙，进入虎牙官网：点击颜值选项进入都是妹子的界面： 2.鼠标单击右键，选择查看网页源码，如下： ...

毕业设计论文SpringBoot社区老人健康信息管理系统.docx

10-17

毕业设计论文

TEAM-NAVI-Requirements Specification Document