用requests及BeautifulSoup实现豆瓣电影信息的获取

本文分享了作者利用Python爬虫技术,通过requests和BeautifulSoup库抓取并解析豆瓣电影Top250的电影名称、导演、评分和排名,存储在txt文件中的过程,展示了基本的信息抓取技巧。
摘要由CSDN通过智能技术生成

最近花了三天左右的时间做了一个爬虫项目,记录如下:

import requests
from bs4 import BeautifulSoup
url='https://movie.douban.com/top250'
movie_names=[]
movie_messages=[]
 movie_scores=[]
movie_rank=[]
 def movie_nameget(url):
    headers = {  # 这是请求头
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.76'
    }
    responce=requests.get(url,headers=headers,timeout=10)
    page=responce.content.decode()
    soup=BeautifulSoup(page,'lxml')
     wd=soup.find_all('div',class_='hd')
    qt=soup.find_all('p',class_='')
    pf=soup.find_all('span',class_="rating_num")
     pm=soup.find_all('em',class_="")
    for each in qt:                          #获取导演等信息
        message1=each.text.replace("                            ","")
        message=message1.replace("\n                        ","")
        movie_messages.append(message)    

    for each in wd:                          #获取电影名
        span=each.find('span',class_='title')
        title=span.text
        movie_names.append(title)

     for each in pf:                         #获取电影评分
        scores=each.text
        movie_scores.append("评分"+scores)
    
    for each in pm:                       #获取电影排名
        rank=each.text
        movie_rank.append("排名:"+rank+"\t")

     for i in range(0,25):            #每页有25个电影信息,逐一存储  
        file=open("movietop250.txt","a", encoding="utf-8")
        file.write(movie_rank[i]+movie_names[i]+movie_messages[i]+"\t\t\t"+movie_scores[i]+"\n")               #将信息写入到txt文件中
        file.close()
    movie_names.clear()
    movie_messages.clear()
    movie_scores.clear()
    movie_rank.clear()               #更新列表
 for j in range(0,10):         #一共有10页,用for循环获取每页信息
    houzui='?start='+str(j*25)+'&filter='
    link=url+houzui
    movie_nameget(link)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值