正则爬取豆瓣Top250数据存储到CSV文件（6行代码）

最新推荐文章于 2023-11-01 22:40:55 发布

PENG越

最新推荐文章于 2023-11-01 22:40:55 发布

阅读量891

点赞数

分类专栏： Python 文章标签： python chrome 数据挖掘爬虫正则表达式

本文链接：https://blog.csdn.net/qq_44718932/article/details/122024992

版权

Python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

利用正则爬取豆瓣TOP250电影信息

电影名字
电影年份
电影评分
评论人数

在这里插入图片描述

import requests
import csv
import re
# 不算导包的话正式代码6行 存储到csv文件
url = "https://movie.douban.com/top250?start={}&filter="
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36"}
obj = re.compile(r'a.*?<span class="title">(.*?)</span>.*?<br>\s+(.*?)&.*?:average">(.*?)</span>.*?<span>(.*?)人评价</span>', re.S)
with open('douban250.csv', 'w', encoding='utf-8', newline='') as file:
    csv_write = csv.writer(file)
    [csv_write.writerows(obj.findall(requests.get(url=url.format(page), headers=headers).text)) for page in range(0, 226, 25)]

利用正则拿截取部分数据还是挺好用的。此处使用的findall，如果部分数据做部分处理的话使用finditer会更合适。根据需求而言。

PENG越

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
正则爬取豆瓣Top250数据存储到CSV文件（6行代码）

利用正则爬取豆瓣TOP250电影信息电影名字电影年份电影评分评论人数import requestsimport csvimport re# 不算导包的话正式代码6行存储到csv文件url = "https://movie.douban.com/top250?start={}&filter="headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM
复制链接

扫一扫