#! /usr/bin/env python
# -*- coding: utf-8 -*-
import asyncio
import aiohttp
import re
import aiofiles
import time
# time是同步的,不要进入异步代码
LOOP = asyncio.get_event_loop()
#
HEADERS = {"Cookie": "__cdnuid=efaf90be3615c5e79e92852f271af777; jieqiVisitTime=jieqiArticlesearchTime%3D1534652382",
"Referer": "http://www.biquge.com.tw/",
"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Mobile Safari/537.36"}
BASE_URL = "http://www.biquge.com.tw"
async def get_html(session, url):
try:
# 6.31415926535 66.30009722709656秒 ----左边是时间没有控制好的错误例子,好像重复执行了500多次
async with session.get(url=url, timeout=10.31415926535) as resp:
# 这个timeout非常重要,笔趣阁的服务器是有点渣,他既不拒绝你又不答应你,时间自己好好考虑
# 我这里采用的是回调,可以说,如果不懂异常处理和回调,你不要看了
if not resp.status // 100 == 2:
print(resp.status)
print("爬取", url, "出现错误")
else:
resp.encoding = 'gb18030'
text = await resp.text()
return text
except Exception as e:
python3实现高并发爬取笔趣阁小说
最新推荐文章于 2024-08-24 08:04:34 发布
本文介绍了如何使用 Python3 的 requests 和 threading 库实现高并发爬取笔趣阁网站上的小说数据,包括设置请求头、处理反爬策略、数据解析及存储等关键步骤,旨在提升爬虫效率。
摘要由CSDN通过智能技术生成