使用Python的Re模块爬豆瓣的top250的部分内容

Monica_弋曦

已于 2022-05-16 13:50:20 修改

阅读量338

点赞数

分类专栏： Python 文章标签： python 开发语言

于 2022-05-16 13:47:10 首次发布

本文链接：https://blog.csdn.net/sillycolayixi/article/details/124798178

版权

本文介绍如何利用Python的Re正则表达式模块爬取豆瓣电影Top250列表的部分内容，包括电影名称、评分和简介等关键信息，展示了Python在网络爬虫领域的应用。

摘要由CSDN通过智能技术生成

import requests
import re
import csv
domain = "https://movie.douban.com/top250"

for i in range(0,11):
    j = i*25
    # print(j)
    url = domain+'?'+'start={}'.format(j)
    # url="https://movie.douban.com/top250?start=50"
    # print(url)
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0"}
    resp = requests.get(url, headers=headers)
    resp.encoding ='utf-8'
    page_context = resp.text

# print(page_context)

# 对获取的数据进行解析
    obj1 = re.compile(r'<li>.*? <div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?'
                  r'<p class="">.*?<br>(?P<year>.*?)&nbsp.*?'
                  r'<span>(?P<num>.*?)人评价</span>', re.S) # 对电影的名称进行解

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Monica_弋曦

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Python的Re模块爬豆瓣的top250的部分内容

import requestsimport reimport csvdomain = "https://movie.douban.com/top250"for i in range(0,11): j = i*25 # print(j) url = domain+'?'+'start={}'.format(j) # url="https://movie.douban.com/top250?start=50" # print(url) headers .
复制链接

扫一扫