要创建一个Python爬虫程序来爬取指定网站的分集剧情,我们需要使用requests
库来发送HTTP请求,以及BeautifulSoup
库来解析HTML内容。以下是一个简单的示例,展示了如何爬取你提供的网站的分集剧情,并将每集剧情保存到本地的.txt文件中。
首先,确保你已经安装了requests
和beautifulsoup4
库。如果没有安装,可以使用以下命令安装:
pip install requests beautifulsoup4
然后,你可以使用以下Python代码来实现你的需求:
import requests
from lxml import html
from bs4 import BeautifulSoup
import os
import datetime
# 目标网站的URL
base_url = "https://www.tvmao.com"
drama_url = f"{base_url}/drama/W2FfZWop/episode"
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (