类级别写法爬取糗事百科段子
前文回顾
python爬虫–爬取9某1看剧网电视剧
python爬虫–爬取网易云音乐评论
python爬虫–scrapy(再探)
python爬虫–scrapy(初识)
python爬虫–selenium模块
文章目录
思路:
模块化
需要的模块有
-
发送请求
- 主要功能:向URL发送请求,获取响应页面
-
数据解析
- 主要功能:解析页面中的所需要的urls和所需要的内容
-
数据存储
- 主要功能:存储数据解析后的内容
-
URL管理器
- 主要功能:管理urkl,包括:添加新url,urls ,获取url,获取还有多少url需要爬取,获取是否还有url需要爬取
-
调度器
- 主要功能:协调多个模块之间运行
例子:爬取糗事百科段子
代码
from fake_useragent import UserAgent
import requests
from lxml import etree
# 发送请求
class Downloader():
def do_download(self,url):
print(url)
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
}
resp = requests.get(url=url,headers=headers