python和易语言爬虫速度_请教一个问题，怎么提高 python 爬虫的爬取效率？

最新推荐文章于 2021-03-10 16:02:16 发布

weixin_39992788

最新推荐文章于 2021-03-10 16:02:16 发布

阅读量156

点赞数

文章标签： python和易语言爬虫速度

写了个简单的协程爬虫爬取 B 站用户信息，代码如下：

import requests

import re

import json

import datetime

import asyncio

def get_info(uid):

url_info = "http://space.bilibili.com/ajax/member/GetInfo?mid=" #基本信息

uid = str(uid)

return loop.run_in_executor(None, requests.get, url_info+uid)

async def user_info(num):

for uid in range(num, num+10):

info = await get_info(uid)

info = json.loads(info.text)["data"]

try:

# print(datetime.datetime.fromtimestamp(info['regtime']))

print("ok", uid)

print(info)

except UnicodeEncodeError as e:

print("UnicodeEncodeError:", e)

except TypeError:

print(info)

loop = asyncio.get_event_loop()

try:

loop.run_until_complete(asyncio.wait([user_info(x) for x in range(1, 1000, 10)]))

except Exception as e:

print("Error:", e)

爬取 1000 条需要 50 秒左右，而且带宽占用也只有 220Kbps 左右的样子，有没有什么办法提高爬取的速度？ B 站用户有 3800 万左右。

谢谢指教。

ps:1. 没机器做分布式

2. 我知道多进程，但我想问问协程能不能更有效率一点。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39992788

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python和易语言爬虫速度_请教一个问题，怎么提高 python 爬虫的爬取效率？

写了个简单的协程爬虫爬取 B 站用户信息，代码如下：import requestsimport reimport jsonimport datetimeimport asynciodef get_info(uid):url_info = "http://space.bilibili.com/ajax/member/GetInfo?mid=" #基本信息uid = str(uid)return lo...
复制链接

扫一扫

python跟易语言的爬虫_新人Python，第一只爬虫，，我就只会re.findall,你咬我？

weixin_39761655的博客

12-20

264

[Python] 纯文本查看复制代码import requestsimport reimport os# 设置浏览器引擎headers ={'User-Agent': 'Mozilla/5.0(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36...

易语言-易语言正则提取网页数据

06-29

例程程序结合易语言正则表达式支持库，提取网页双色球数据。

参与评论您还未登录，请先登录后发表或查看评论

python多线程_Python多线程爬虫，效率真的高

weixin_39616045的博客

11-17

444

有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍：多线程是为了同步完成多项任务，通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢，而进程则是火车。车厢离开火车是无法跑动的，同理火车也可以有多节车厢。多线程的出现就...

python和易语言爬虫速度_如何优化 Python 爬虫的速度？

weixin_39968266的博客

11-27

565

在开发爬虫的时候，对于老工程师的工作节奏一般是先实现爬虫的抓取逻辑，然后就要提升爬取的效率了。众所周知想提升效率就要涉猎到并发编程姿势啦，所以今天我们抛砖引玉，不去过多的计较太原理和抽象的东西，而是用 Python 自带的并发标准库和第三方库来看看怎么优雅的实现并发编程和提升爬取效率。我们写来个简单的爬虫：# -*- coding=utf-8 -*-import timeimport reques...

python和易语言爬虫速度_Python requests及aiohttp速度对比代码实例

weixin_39777497的博客

11-27

322

环境：centos7 python3.6测试网址：www.bai.com测试方式：抓取百度100次结果：aio: 10.702147483825684srequests: 12.404678583145142s异步框架的速度还是有显著提升的。下面贡献代码：import aiohttpimport timeimport requestsimport asynciodef test_requests(...

小红书爬虫，可爬取无水印图片和视频.zip

最新发布

01-19

URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的...

拼多多爬虫，爬取所有商品、评论等信息.zip

08-24

【标题】：“拼多多爬虫，爬取所有商品、评论等信息.zip”是一个关于网络爬虫技术的实践项目，主要目标是获取拼多多电商平台的商品信息和用户评论。该项目利用Python编程语言和相关的爬虫库来实现数据抓取。【描述...

一看就懂易语言调用python3.6

02-26

`人生苦短我用 Python.e`可能是一个易语言的小程序，用以表达Python因其简洁高效而受到开发者欢迎的事实。在实际开发中，Python能快速实现各种功能，尤其在数据分析、网络编程和自动化任务等领域。 `python36.dll...

美图录辣女神图片写真爬虫易语言E

03-19

【美图录辣女神图片写真爬虫易语言E】是一个使用易语言开发的网络爬虫程序，专门用于抓取互联网上的辣女神图片写真。易语言是一种面向对象的、适合初学者使用的编程语言，其语法简洁明了，使得这款爬虫程序的编写和...

php与python实现的线程池多线程爬虫功能示例

10-21

主要介绍了php与python实现的线程池多线程爬虫功能,结合实例形式分析了php与python实现线程池多线程爬虫的完整实现方法,需要的朋友可以参考下

易语言爬取网页内容方法

08-26

在本篇文章里我们给大家分享的是关于易语言爬取网页内容方法和步骤，有兴趣的朋友们学习下。

多线程爬虫

bangyinyou3056的博客

12-16

1013

多线程爬虫有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍：多线程是为了同步完成多项任务，通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢，而进程则是火车。车厢离开火车是无法跑动的，同理火车...

易语言爬虫采集思路简述，编写难度中等

dongdiyu789的博客

02-25

9362

相信学过一些编程的网友自然对爬虫采集是不会陌生了，简单的爬虫采集，我这边就不介绍了，我这边拿了一个资源采集网站的做个例子，然后当你看到这种资源网站，你是不是觉得，这个网站在玩人家啊，连个地址都给加密了我拿其他正常资源网站的，基本上都是直接给出m3u8地址的，怎么这个网站还给加密了，所以网站上方直接打出一些字眼，需要通过这个网站播放器，加上这些XMOTA2NTcwMDAwXzE= 这种地址后缀的，才能播放地址，然而我们所需要的是m3u8地址，这种是直接可以下载的所以...

python跟易语言的爬虫_用易语言写个简单的小爬虫其中的关键点

weixin_33048525的博客

02-04

4476

一.请求头ctrl+L快捷键创建变量变量名类型协议参数类_POST数据类请求头数据文本型协议参数.添加 (“v”, “4.52.0”)请求头数据＝协议参数.获取协议头数据 ()二.请求参数比如post变量名类型请求data参数类_POST数据类请求data提交内容文本型请求data参数.添加 (“type”, “0”)请求data提交内容＝请求data参数.获取JSON文本 ()三.进行请...

python爬虫的原理以及步骤-python学习之python爬虫原理

weixin_37988176的博客

10-30

1192

原标题：python学习之python爬虫原理今天我们要向大家详细解说python爬虫原理，什么是python爬虫，python爬虫工作的基本流程是什么等内容，希望对这正在进行python爬虫学习的同学有所帮助!前言简单来说互联网是由一个个站点和网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前;一、...

Python爬虫-何谓网络爬虫（基本入门）

weixin_49345590的博客

11-20

320

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者：Angel_Kitty ( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 ) 一、何谓网络爬虫网络爬虫的概念其实不难理解，大家可以将互联网理解为一张巨大无比的网（渔网吧），而网络爬虫就像一只蜘蛛（爬虫的英文叫spider，蜘蛛的意思，个人认为

看完这个系列所有爬虫都easy！（一）爬虫介绍与request库使用

csyifanZhang的博客

04-02

1074

文章目录1：爬虫的流程介绍2：Request的基本使用1. request()方法的参数说明2. Response对象的属性和方法3.request的请求头详解4.post请求与json对象的接受 1：爬虫的流程介绍确认需求：你需要什么东西？你需要美女的图片寻找需求：哪里能找到你想要的东西？百度图库发送请求：发送访问页面的请求，获取页面的源代码。解析数据：从冗杂的源代码当中提取我们需要的...

易语言取php网页数据,易语言爬取网页内容方法

weixin_32657751的博客

03-10

1833

写个辅助工具的时候需要提取网页里面的某些内容，我这里便把方法告诉大家，希望对大家有所帮助，记得投票给我哦！1、在新建的windos窗口程序中画：两个编辑框、一个按钮。再添加模块如图中三步！我们来实现，在一个编辑框中输入网址后，点击按钮，然后取到指定内容到编辑框2中。2、比如我们来取百度某贴吧一个帖子内的内容！如下图中的“跑遍数码城，XXXXX”。我们在该页面上右键---->查看网页源码(或查...

python做一个易语言

02-06

Python 是一种高级编程语言，而易语言...如果你想用 Python 来编写易语言程序，那么你需要找到一个能够将 Python 代码转化为易语言代码的工具或库。目前没有这样的工具或库,你可以尝试使用 Python 库调用易语言程序。