Python3 爬取电影Top250

学习python爬虫似乎都是从某瓣开始的,今天参考了几篇博文,自己试了一下python的爬取,做个记录

其实流程很简单,通过链接对网页内容进行抓取,然后再对抓取到的内容进行过滤,最终进行数据分析及存储

首先来分析一下豆瓣电影Top250的页面

一页数据25条,每一个item对应到html里的一条<li>标签 注意它们的父级元素<ol>对应的class 为'grid_view' 记住这点,后面我们元素选择器的时候会使用到

展开li,可以看到里面的内容包括片名、导演、演员、评分等等,就是我们所要抓取的内容。

一页有25条数据,总共十页,要拿到这250条数据,要做十次循环,每一页对应到的链接肯定是不同的,那我们应该如何获取这些链接呢,看了许多文章都是用拼链接来获取的,当然这能让我们进一步学习如何做页面的分析,但我看到有一种做法是最简单的

我们可以通过底部的分页,通过获取'后页'的链接,我们可以得到下一页从而来进行循环,当到第十页,'后页'取不到链接了,标识循环结束

好了,整个页面还是比较简单的,分析完毕以后,我们进行具体的操作

首先是页面内容的获取

import requests

class HtmlGet:

    def download_page(self,url):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
        }
        data = requests.get(url, headers=headers).text
        return data

这里请求头加了一个'User-Agent'用来伪装浏览器,返回来的data就对应到页面的html内容

接下来是html页面的解析,使用到了BeautifulSoup的库

 
movie_lists = soup.select(".grid_view li")

还记得上面ol的class吗,这个相当于css里面的父子选择器,把所有的li标签都选择出来了,然后我们对这个list进行一个遍历,选出我们所需要的信息,我选择记录片名和导演两个信息。

从上面的图可以看到片名是class='title'的span标签

 
movie_name = movie_item.find('span',class_='title').getText()

这个方法选出对应的str值

而它的导演信息是这个样子,我先用select把这个p标签里的内容取出,然后再用正则表达式来获取导演名

patternStr = r'\s*导演: (.*?)\s{3}'
p = re.compile(patternStr)
movie_director = re.match(p,movie_item.select('div.bd p')[0].getText()).group(1)

同时返回信息数组和下一页链接两个值,如果下一页没有就返回None

 next_page = soup.find('span', class_='next').find('a')
        if next_page:
            return movie_infos, self.url + next_page['href']
        return movie_infos, None

完整代码如下

from bs4 import BeautifulSoup
import re

patternStr = r'\s*导演: (.*?)\s{3}'
p = re.compile(patternStr)

class HtmlParser(object):

    def __init__(self,url):
        self.url = url;

    def parser_html(self,html):
        soup = BeautifulSoup(html, 'lxml');
        movie_infos = []
        movie_lists = soup.select(".grid_view li")
        for movie_item in movie_lists:
            movie_name = movie_item.find('span',class_='title').getText()
            movie_director = re.match(p,movie_item.select('div.bd p')[0].getText()).group(1)
            movie_infos.append(list((movie_name,movie_director)))
        next_page = soup.find('span', class_='next').find('a')
        if next_page:
            return movie_infos, self.url + next_page['href']
        return movie_infos, None

最后对两个类进行调用

from HtmlGet import HtmlGet
from HtmlParser import HtmlParser

URL='https://movie.douban.com/top250'
outputMode= "{0:{2}^20}\t{1:^10}"

htmlGet = HtmlGet()

htmlParser = HtmlParser(URL)

url = URL

while url:
    infos,url = htmlParser.parser_html(htmlGet.download_page(url))
    for info in infos:
        print(outputMode.format(info[0],info[1],chr(12288)))

输出结果

大功告成。。。

github: GitHub - superyxw/movie

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值