python爬虫--类级别写法

最新推荐文章于 2022-10-04 19:10:36 发布

南岸青栀*

最新推荐文章于 2022-10-04 19:10:36 发布

阅读量422

点赞数 7

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_43710889/article/details/118946938

版权

类级别写法爬取糗事百科段子

前文回顾

python爬虫–爬取9某1看剧网电视剧

python爬虫–爬取网易云音乐评论

python爬虫–scrapy（再探）

python爬虫–scrapy（初识）

python爬虫–selenium模块

文章目录

思路：

模块化
需要的模块有

发送请求
- 主要功能：向URL发送请求，获取响应页面
数据解析
- 主要功能：解析页面中的所需要的urls和所需要的内容
数据存储
- 主要功能：存储数据解析后的内容
URL管理器
- 主要功能：管理urkl，包括：添加新url，urls ，获取url，获取还有多少url需要爬取，获取是否还有url需要爬取
调度器
- 主要功能：协调多个模块之间运行

例子：爬取糗事百科段子

代码

from fake_useragent import UserAgent
import requests
from lxml import etree

# 发送请求
class Downloader():
    def do_download(self,url):
        print(url)
        headers = {
   
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
        }
        resp = requests.get(url=url,headers=headers

最低0.47元/天解锁文章

南岸青栀*

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
2
评论
python爬虫--类级别写法

类级别写法爬取糗事百科段子前文回顾python爬虫–爬取9某1看剧网电视剧python爬虫–爬取网易云音乐评论python爬虫–scrapy（再探）python爬虫–scrapy（初识）python爬虫–selenium模块文章目录前文回顾python爬虫--爬取9某1看剧网电视剧python爬虫--爬取网易云音乐评论python爬虫--scrapy（再探）python爬虫--scrapy（初识）python爬虫--selenium模块思路：代码效果图思路：模块化需要的模块有发送请
复制链接

扫一扫