import requests
import re
import csv
domain = "https://movie.douban.com/top250"
for i in range(0,11):
j = i*25
# print(j)
url = domain+'?'+'start={}'.format(j)
# url="https://movie.douban.com/top250?start=50"
# print(url)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0"}
resp = requests.get(url, headers=headers)
resp.encoding ='utf-8'
page_context = resp.text
# print(page_context)
# 对获取的数据进行解析
obj1 = re.compile(r'<li>.*? <div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?'
r'<p class="">.*?<br>(?P<year>.*?) .*?'
r'<span>(?P<num>.*?)人评价</span>', re.S) # 对电影的名称进行解
使用Python的Re模块爬豆瓣的top250的部分内容
于 2022-05-16 13:47:10 首次发布
本文介绍如何利用Python的Re正则表达式模块爬取豆瓣电影Top250列表的部分内容,包括电影名称、评分和简介等关键信息,展示了Python在网络爬虫领域的应用。
摘要由CSDN通过智能技术生成