利用python--正则--爬取豆瓣TOP250排行榜

最新推荐文章于 2021-12-17 13:35:52 发布

D I Y

最新推荐文章于 2021-12-17 13:35:52 发布

阅读量299

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_42844589/article/details/88081979

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

话不多说直接贴上代码
import requests
import re
import json
#定义一个函数，用于解析网页内容
def pase_detail(url):
content = requests.get(url).content.decode()
movie_content=re.findall(’

.? (.?).?

.?(.?)
.?(\d{4}) .?(.*?)’,content,re.S)

for item in movie_content:
    movie_name=item[0]
    movie_direct=item[1].replace("\n","").strip().replace("&nbsp;&nbsp;&nbsp;","--")
    movie_year=item[2]
    movie_score=item[3]
    yield {
    "movie_name":movie_name,
    "movie_direct":movie_direct,
    "movie_year":movie_year,
    "movie_score":movie_score,
    }

#定义一个函数用于获取后的文本存储
def write_content(movie_info):
with open(‘douban_top250.txt’,‘a+’,encoding=‘utf-8’) as fp:
fp.write(json.dumps(movie_info,ensure_ascii=False)+’\n’)

if name==“main”:
url = ‘https://movie.douban.com/top250?start={}&filter=’
for page in range(11):
for movie_msg in pase_detail(url.format(page*25)):
print(movie_msg)
write_content(movie_msg)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

D I Y

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用python--正则--爬取豆瓣TOP250排行榜

话不多说直接贴上代码import requestsimport reimport json#定义一个函数，用于解析网页内容def pase_detail(url):content = requests.get(url).content.decode()movie_content=re.findall(’.?.?(.?).?.?(.?).?(\d{4})&nbsp;.?(.*?)’,c...
复制链接

扫一扫