豆瓣

'''''
一.请求url:
https://movie.douban.com/top250
二.请求方式:
GET
三.请求头:
User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36
Cookie


爬取 电影名称
电影url
电影导演
电影主演
电影年份
电影类型
电影评分
电影评论
电影简介

'''
import requests
import re
#爬虫三部曲
#1.发送请求
def get_page(url):
response =requests.get(url)
# print(respond.text)
return response
#2.解析数据
def parse_index(html):
'''
<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?">(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>

'''
movie_list = re.findall(' <div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?">(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>',html,re.S)
return movie_list
#3.保存数据
def save_data(movie):
top, m_url, name, daoyan, actor, year_type, point, commit, desc = movie
data = f'''
======== 欢迎尊敬官人观赏 ========
电影排名:{top}
电影url:{m_url}
电影名称:{name}
电影导演:{daoyan}
电影主演:{actor}
年份类型:{year_type}
电影评分:{point}
电影评论:{commit}
电影简介:{desc}
======== 请官人下次再来哟 ========
\n
\n
'''
print(data)
with open('douban_top250.txt', 'a', encoding='utf-8')as f:
f.write(data)
print(f'电影:{name}写入成功...')


if __name__=='__main__':
#拼接主页
num=0
for line in range(10):
url = f'https://movie.douban.com/top250?start={num}&filter='
num +=25
print(url)
#往主页发送请求
index_res = get_page(url)
#2.解析主页获取电影信息
movie_list = parse_index(index_res.text)
for movie in movie_list:
#print(movie)
save_data(movie)

转载于:https://www.cnblogs.com/yijingjing/p/11124222.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值