python爬虫入门——豆瓣电影排行榜top250

最新推荐文章于 2022-08-11 16:32:13 发布

cout0

最新推荐文章于 2022-08-11 16:32:13 发布

阅读量599

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/u011956367/article/details/95251540

版权

Python 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

需要用到的库

1.requests

2.re（正则表达式库）

部分参数

请求头：

此处复制的火狐浏览器请求头

myheader = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",
    "Host": "movie.douban.com"
}

标记电影次序：time，初始化为1

排行榜第i页：link = 'https://movie.douban.com/top250?start=' + str(i * 25)

正则匹配结果：matchObj

import requests
import re
def get_movies():
    #请求头
    myheader = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",
        "Host": "movie.douban.com"
    }
    time = 1
    for i in range(0, 10):
        #循环访问http
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)
        r = requests.get(link, headers=myheader, timeout=10)
        
        #输出页面状态码
        print(str(i+1), "code:", r.status_code)
        
        #正则匹配
        matchObj = re.findall(r'(?<=<span class="title">)[^&]*(?=</span>)', r.text)
        
        #写入文件
        with open("res.txt", "a", encoding='utf-8') as f:
            for num in matchObj:
                f.write(str(time) + ':' + num + '\n')
                time += 1
#函数调用
get_movies()

cout0

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫入门——豆瓣电影排行榜top250

需要用到的库1.requests2.re（正则表达式库）部分参数请求头：此处复制的火狐浏览器请求头myheader = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0", "Host": "movie.dou...
复制链接

扫一扫