python爬虫入门——豆瓣电影排行榜top250

需要用到的库

1.requests

2.re(正则表达式库)

 

部分参数

请求头:

此处复制的火狐浏览器请求头

myheader = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",
    "Host": "movie.douban.com"
}

标记电影次序:time,初始化为1

排行榜第i页:link = 'https://movie.douban.com/top250?start=' + str(i * 25)

正则匹配结果:matchObj

 

import requests
import re
def get_movies():
    #请求头
    myheader = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",
        "Host": "movie.douban.com"
    }
    time = 1
    for i in range(0, 10):
        #循环访问http
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)
        r = requests.get(link, headers=myheader, timeout=10)
        
        #输出页面状态码
        print(str(i+1), "code:", r.status_code)
        
        #正则匹配
        matchObj = re.findall(r'(?<=<span class="title">)[^&]*(?=</span>)', r.text)
        
        #写入文件
        with open("res.txt", "a", encoding='utf-8') as f:
            for num in matchObj:
                f.write(str(time) + ':' + num + '\n')
                time += 1
#函数调用
get_movies()

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cout0

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值