第一个爬虫：爬取豆瓣Top250电影名字

最新推荐文章于 2024-01-08 19:45:22 发布

neu-gwh

最新推荐文章于 2024-01-08 19:45:22 发布

阅读量463

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/sdauguanweihong/article/details/103115442

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

import requests
from bs4 import BeautifulSoup


def get_movies():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Mobile Safari/537.36',
        'Host': 'movie.douban.com'

        }
    movie_list = []
    for i in range(0, 10):
        link = 'https://movie.douban.com/top250?start='+str(i * 25)+"&filter="
        print(link)
        r = requests.get(link, headers=headers, timeout=100)
        print(str(i + 1), "页响应码", r.status_code)
        soup = BeautifulSoup(r.text, "lxml")
        div_list = soup.find_all('div', class_='hd')
        for each in div_list:
            movie = each.a.span.text.strip()
            print(movie)
            movie_list.append(movie)
    return movie_list


movies = get_movies()
print(movies)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

neu-gwh

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一个爬虫：爬取豆瓣Top250电影名字

import requestsfrom bs4 import BeautifulSoupdef get_movies(): headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) ...
复制链接

扫一扫