python scrapy 多线程下载文件_Python3 requests多线程抓取猫眼电影Top100保存到文件

最新推荐文章于 2020-12-12 14:03:18 发布

weixin_39626927

最新推荐文章于 2020-12-12 14:03:18 发布

阅读量256

点赞数

文章标签： python scrapy 多线程下载文件

#coding=utf-8

import json

import re

from multiprocessing import Pool

import requests

from requests.exceptions import RequestException

from fake_useragent import UserAgent

ua=UserAgent()

def get_page(url):

try:

headers={'User-Agent':ua.chrome}

response=requests.get(url,headers=headers)

if response.status_code==200:

return response.text

return None

except RequestException:

return None

'''

霸王别姬

主演：张国荣,张丰毅,巩俐

上映时间：1993-01-01

9.5

'''

def parse_page(html):

pattern=re.compile(r'

.*?board-index-\d+">(.*?).*?

+'.*?data-val="{movieId:\d+}">(.*?)'

+'.*?

(.*?)

.*?class="releasetime">(.*?)'

+'.*?(.*?)'

+'.*?(.*?).*?

',re.S)

items=pattern.findall(html)

for item in items:

yield{

'index':item[0],

'image':item[1],

'title':item[2],

'star': item[3].strip()[4:],

'time':item[4][5:],

'score':item[5]+item[6]

}

def write_to_file(content):

with open("res.txt","a",encoding="utf-8") as f:

f.write(content)

def main(offset):

url="https://maoyan.com/board/4?offset="+str(offset)

html=get_page(url)

if html!=None:

for item in parse_page(html):

print(item)

write_to_file(json.dumps(item,ensure_ascii=False)+"\n")

if __name__=="__main__":

pool=Pool()

pool.map(main,[i*10 for i in range(10)])

pool.close()

pool.join()

User-Agentx 必须要加,否则403

ensure_ascii=False 保证中文是友好显示

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39626927

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy 多线程下载文件_Python3 requests多线程抓取猫眼电影Top100保存到文件

#coding=utf-8import jsonimport refrom multiprocessing import Poolimport requestsfrom requests.exceptions import RequestExceptionfrom fake_useragent import UserAgentua=UserAgent()def get_page(url):try:...
复制链接

扫一扫

猫眼电影票房爬取到MySQL中_猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库...

weixin_33930436的博客

01-19

1225

前面讲了如何通过pymysql操作数据库，这次写一个爬虫来提取信息，并将数据存储到mysql数据库1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括：电影排名、电影名称、上映时间、分数2.分析网页HTML源码可以看到每部电影信息都被包裹在一对...标签中，所以我们只需提取出一个标签对中的上述信息即可。使用正则表达式提取3. 完整过程这个例子有2个关键点:正则编写和数据处理(写进mysql数据...

scrapy多线程文件下载

weixin_34233856的博客

07-12

260

在爬取数据时有时候有些文件数据需要爬取下载下来使用多线程下载可以让程序跑的更快点。 scrapy中有个扩展可以使用扩展模块来实现下载。在自己的spider中加入 custom_settings class MytestSpider(scrapy.Spider): name = "mytest" custom_settings = { 'EXTEN...

参与评论您还未登录，请先登录后发表或查看评论

python scrapy 多线程下载文件_Python实现多线程抓取妹子图

weixin_39790738的博客

12-12

137

心血来潮写了个多线程抓妹子图，虽然代码还是有一些瑕疵，但是还是记录下来，分享给大家。Pic_downloader.py# -*- coding: utf-8 -*-"""Created on Fri Aug 07 17:30:58 2015@author: Dreace"""import urllib2import sysimport timeimport osimport randomfrom ...

python线程池官网-Python线程池下载txt

weixin_39673051的博客

11-11

113

下次试试用scrapy模块# coding=utf-8import requestsimport threadpooldef download_file(i):"""下载文件"""download_url = f"https://www.txt2016.com/e/DownSys/xiazai/?classid=1&pathid...

python多线程下载视频_python 实现多线程下载m3u8格式视频并使用fmmpeg合并

weixin_39991055的博客

12-05

308

电影之类的长视频好像都用m3u8格式了，这就导致了多线程下载视频的意义不是很大，都是短视频，线不线程就没什么意义了嘛。我们知道，m3u8的链接会下载一个文档，相当长，半小时的视频，应该有接近千行ts链接。这些ts链接下载成ts文件，就是碎片化的视频，加以合并，就成了需要的视频。那，即便网速很快，下几千行视频，效率也就低了，更何况还要合并。我就琢磨了一下午，怎么样才能多线程下载m3u8格式的视频呢？...

Python实现多线程抓取网页功能实例详解

09-21

### Python实现多线程抓取网页功能实例详解 #### 一、引言在现代互联网应用开发中，网络爬虫技术扮演着极其重要的角色。它不仅能够帮助开发者快速收集网络上的公开信息，还能够用于数据分析等多种场景。Python...

Python-使用正则表达式和requests抓取猫眼TOP100的电影信息

08-12

总结，通过Python的requests库和正则表达式，我们可以实现对猫眼电影Top100的抓取。然而，对于更复杂的情况，建议使用如BeautifulSoup、Scrapy等专门的Web爬虫框架。在进行网络爬虫时，一定要遵守道德规范，尊重网站...

python爬虫-python多线程爬虫爬取电影天堂资源.zip

最新发布

02-25

本教程将详细讲解如何利用Python实现多线程爬虫来爬取电影天堂资源。首先，我们需要了解Python爬虫的基础知识。Python作为一门非常适合进行网络爬虫开发的语言，拥有丰富的库支持，如requests用于发送HTTP请求，...

Python多线程爬虫实战_爬取糗事百科段子的实例

09-20

在Python编程中，多线程爬虫是一种提高网络爬虫效率的有效方法，特别是在处理大量数据或需要快速抓取网页内容的场景下。本实例将详细讲解如何使用Python实现多线程爬虫，以爬取糗事百科上的段子作为具体应用。首先...

python scrapy 多线程下载文件_Python爬虫之多线程下载豆瓣Top250电影图片

weixin_39803552的博客

12-08

386

爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片，其网址为：https://movie.douban.com/top250，具体页面如下图所示：本次爬虫项目将分别不使用多线程和使用多线程来完成，通过两者的对比，显示出多线程在爬虫项目中的巨大优势。本文所使用的多线程用到了concurrent.futures模块，该模块是Python中最广为使用的并发库，它可以非常方便地将任务并行化。在co...

Python-让你在线看视频也能达到多线程下载的速度

08-10

让你在线看视频也能达到多线程下载的速度

Python-HTTP大文件多线程下载工具支持断点续传

08-10

HTTP大文件多线程下载工具，支持断点续传

python3 requests多线程爬取xici 代理ip并验证

kong050kong的博客

03-28

691

使用环境 Python3 使用到的库 requests，lxml，threading，queue，time 需要额外安装的库 requests ，lxml 安装命令 pip install requests lxml 开始爬虫工作流程: 1. 构造 URL 列表 2. 获取 URL 响应页面 3. 提取页面有用数据 4. 保存数据 5. 清洗数据上代码 import requ...

Python3用requests,multiprocessing多线程爬取今日头条图片

Linux,Java,SpringBoot,Python,Lua略知一点

10-21

313

仅供交流学习 #coding=utf-8 import json import requests import re import os from multiprocessing import Pool from urllib.parse import urlencode from fake_useragent import UserAgent from hashlib import m...

python多线程下载大文件_#转载# python包requests下载大文件 | C/C++程序员之家

weixin_39523835的博客

11-23

157

requests单线程下载大文件当使用requests的get下载大文件/数据时，建议使用使用stream模式。当把get函数的stream参数设置成False时，它会立即开始下载文件并放到内存中，如果文件过大，有可能导致内存不足。当把get函数的stream参数设置成True时，它不会立即开始下载，当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载。需要注意...

【Python爬虫】爬取猫眼电影排行榜并存放至csv文件

Ericam_

08-27

4866

在进行本节实战之前，希望您对requests库以及正则表达式有所了解。运行平台：windows Python版本： Python3.x 一、依赖库的安装在本节实战之前，请确保已经正确安装了requests库 requests库的安装 pip3 install requests 如果您使用的是conda环境，可以选择使用以下安装方法 conda install ...

Python3 requests爬取代理IP并验证可用性（附多线程模式）

kong050kong的博客

07-22

4409

简要介绍：使用python3 环境，需要自己安装的包有 requests （网址请求，获取页面信息）和 Lxml（页面解析，信息提取）。首先确定从何处获取 “IP”，本人此次爬取的是西刺网的免费IP代理。大概流程：请求有免费IP的网址（本次使用“http://www.xicidaili.com/nn/”）获取网址的页面信息从已经获得的页面信息中，提取有用的...

python3多线程协程_python3-----多进程、多线程、多协程

weixin_39860123的博客

12-10

195

目前计算机程序一般会遇到两类I/O：硬盘I/O和网络I/O。我就针对网络I/O的场景分析下python3下进程、线程、协程效率的对比。进程采用multiprocessing.Pool进程池，线程是自己封装的进程池，协程采用gevent的库。用python3自带的urlllib.request和开源的requests做对比。代码如下：importurllib.requestimportrequest...

Python3多线程网络编程与分布式爬虫实战指南

本资源是一份针对Python3多线程网络编程与分布式爬虫技术的详细教程文档，着重于Python3.0版本及以上的内容。Python3.0是一个重要的升级，它放弃了对Python2.x版本的向下兼容，旨在提供更好的可读性和一致性。学习者...