Python3 爬取电影Top250

superyxw

已于 2023-06-28 09:18:17 修改

阅读量2.2k

点赞数 1

分类专栏： Python 文章标签： python

于 2018-04-19 14:12:43 首次发布

本文链接：https://blog.csdn.net/superyxw/article/details/80004169

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

学习python爬虫似乎都是从某瓣开始的，今天参考了几篇博文，自己试了一下python的爬取，做个记录

其实流程很简单，通过链接对网页内容进行抓取，然后再对抓取到的内容进行过滤，最终进行数据分析及存储

首先来分析一下豆瓣电影Top250的页面

一页数据25条，每一个item对应到html里的一条<li>标签注意它们的父级元素<ol>对应的class 为'grid_view' 记住这点，后面我们元素选择器的时候会使用到

展开li，可以看到里面的内容包括片名、导演、演员、评分等等，就是我们所要抓取的内容。

一页有25条数据，总共十页，要拿到这250条数据，要做十次循环，每一页对应到的链接肯定是不同的，那我们应该如何获取这些链接呢，看了许多文章都是用拼链接来获取的，当然这能让我们进一步学习如何做页面的分析，但我看到有一种做法是最简单的

我们可以通过底部的分页，通过获取'后页'的链接，我们可以得到下一页从而来进行循环，当到第十页，'后页'取不到链接了，标识循环结束

好了，整个页面还是比较简单的，分析完毕以后，我们进行具体的操作

首先是页面内容的获取

import requests

class HtmlGet:

    def download_page(self,url):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
        }
        data = requests.get(url, headers=headers).text
        return data

这里请求头加了一个'User-Agent'用来伪装浏览器，返回来的data就对应到页面的html内容

接下来是html页面的解析，使用到了BeautifulSoup的库

movie_lists = soup.select(".grid_view li")

还记得上面ol的class吗，这个相当于css里面的父子选择器，把所有的li标签都选择出来了，然后我们对这个list进行一个遍历，选出我们所需要的信息，我选择记录片名和导演两个信息。

从上面的图可以看到片名是class='title'的span标签

movie_name = movie_item.find('span',class_='title').getText()

这个方法选出对应的str值

而它的导演信息是这个样子，我先用select把这个p标签里的内容取出，然后再用正则表达式来获取导演名

patternStr = r'\s*导演: (.*?)\s{3}'
p = re.compile(patternStr)
movie_director = re.match(p,movie_item.select('div.bd p')[0].getText()).group(1)

同时返回信息数组和下一页链接两个值，如果下一页没有就返回None

 next_page = soup.find('span', class_='next').find('a')
        if next_page:
            return movie_infos, self.url + next_page['href']
        return movie_infos, None

完整代码如下

from bs4 import BeautifulSoup
import re

patternStr = r'\s*导演: (.*?)\s{3}'
p = re.compile(patternStr)

class HtmlParser(object):

    def __init__(self,url):
        self.url = url;

    def parser_html(self,html):
        soup = BeautifulSoup(html, 'lxml');
        movie_infos = []
        movie_lists = soup.select(".grid_view li")
        for movie_item in movie_lists:
            movie_name = movie_item.find('span',class_='title').getText()
            movie_director = re.match(p,movie_item.select('div.bd p')[0].getText()).group(1)
            movie_infos.append(list((movie_name,movie_director)))
        next_page = soup.find('span', class_='next').find('a')
        if next_page:
            return movie_infos, self.url + next_page['href']
        return movie_infos, None

最后对两个类进行调用

from HtmlGet import HtmlGet
from HtmlParser import HtmlParser

URL='https://movie.douban.com/top250'
outputMode= "{0:{2}^20}\t{1:^10}"

htmlGet = HtmlGet()

htmlParser = HtmlParser(URL)

url = URL

while url:
    infos,url = htmlParser.parser_html(htmlGet.download_page(url))
    for info in infos:
        print(outputMode.format(info[0],info[1],chr(12288)))

输出结果

大功告成。。。

github: GitHub - superyxw/movie

superyxw

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python3 爬取电影Top250

学习python爬虫似乎都是从某瓣开始的，今天参考了几篇博文，自己试了一下python的爬取，做个记录其实流程很简单，通过链接对网页内容进行抓取，然后再对抓取到的内容进行过滤，最终进行数据分析及存储首先来分析一下豆瓣电影Top250的页面一页数据25条，每一个item对应到html里的一条&lt;li&gt;标签注意它们的父级元素&lt;ol&gt;对应的class 为'grid_view' 记...
复制链接

扫一扫

专栏目录