爬虫demo——爬取电影天堂的资源,存储到本地json文件

电影天堂里面的数据还是非常丰富的,这次的爬虫demo,是对电影天堂中的电影数据进行爬取,包括电影片名,导演,主演,演员等信息以及最后的迅雷下载地址。
经过4000部电影的爬取测试,我对代码多次进行优化,目前为止已没有什么bug,至少可以顺利对网站中的电影进行爬取。

一、基本介绍

文章的最后,我会给出爬虫的完成代码,文章中的代码片段如果看上去比较乱的话,可以在了解爬虫步骤和思想之后,通过完成代码来梳理自己的思路。

本次爬虫使用到三个库,用于请求网页内容的requests库,用于对网页内容数据进行过滤处理的lxml库,已经用于json格式转换的json库。

所以在使用之前要引入这些库,并且保证自己项目中包含这些库,如果没有,自行进行安装。

import requests
from lxml import etree
import json

二、分析电影的链接,为爬虫做准备

首先对电影天堂进行分析,我注意到网站首页有【2018新片精品】这一个版块,点击右边的更多按钮,可以来到电影的列表页。

通过对这些列表页的分析,我发现这不仅仅是2018的最新电影,一共有179页,共4473条数据。仔细分析之后,发现最早的影片是2009年的。觉得数量还是比较多,所以当时就决定对和4000多部电影进行爬取。

分析这些列表的URL,不难发现其中的规律,列表的URL如下:

其中首页比较特殊,我们第一次点进行,看到的URL是http://www.dytt8.net/html/gndy/dyzz/index.html,但是我们从其他页面跳转到首页,会发现地址为http://www.dytt8.net/html/gndy/dyzz/list_23_1.html,完全符合上面的规律。

于是我写了下面代码,一次性生成全部的电影列表页(第1页~第179页)的URL,并存储到列表中:

def movie_list_page():
    base_url = "http://www.dytt8.net/html/gndy/dyzz/list_23_{}.html"
    page_urls = []
    for x in range(1, 180):
        page_urls.append(base_url.format(x))

    return page_urls

现在我们只是获取到电影的列表页地址,下一步我们是要从这些列表页中,获取每一步电影的详情页面地址,比如对于《人类清除计划》这部电影,我们需要获取这个地址:http://www.dytt8.net/html/gndy/dyzz/20180919/57492.html。

明确这一点,下面我们要开始爬取列表页中的内容。这一步是非常简单的,简单看一下页面就会知道,这些电影的详情页地址肯定是很规律的。大多数是ul标签下的li标签或者是table标签,于是我写了下面这些代码,获取电影的详情页地址:

# 传入电影列表页地址,返回这一页中每一部电影的详情页面链接
def get_detail_url(url):
    BASE_DIMAIN = "http://www.dytt8.net"  # 定义基础域名
    response = requests.get(url, headers=HEADERS)
    text = response.text
    html = etree.HTML(text)
    detail_urls = html.xpath("//table[@class='tbspan']//a[@href!='/html/gndy/jddy/index.html']/@href")
    detail_urls = map(lambda x: BASE_DIMAIN + x, detail_urls)

    return detail_urls

三、请求电影的详情页面,过滤数据

现在我们拿到了所有的电影列表页地址,即从第1页到第179页的地址。在代码中使用循环语句,通过这些地址我们又能够获取每一页中所有电影的详情页面信息。这样一来我们就相当于成功一半,下面的工作就是请求电影详情页面中的数据,以及对这些数据进行过滤和处理。

首先我们使用requests库,将电影详情页面中的所有内容全部请求下来,然后获取存放电影信息的那块内容,缩小我们的数据范围,方便我们进一步过滤数据。代码如下:

movie = {}        # 用作后面的存放电影的数据
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
detail_response = requests.get(url, headers=HEADERS)
detail_text = detail_response.content.decode(encoding="gb18030", errors="ignore")    # 注意这里设置的编码格式是根据电影天堂的编码格式来的,同时设置errors="ignore",忽略一些极其特殊的字符的解码错误
detail_html = etree.HTML(detail_text)
if len(detail_html.xpath("//div[@id='Zoom']")) > 0:
    zoom = detail_html.xpath("//div[@id='Zoom']")[0]
else:
    return movie            # 说明没有爬取成功,直接跳过返回一个空字典,放弃对这一步电影的爬取

由于电影天堂中,关于电影内容的部分的数据表示不够明显,比如没有特定的class和id来标识。所有我们需要通过xpath语法中的text()获取表示电影内容的文本信息列表,然后对这些列表进行遍历,过滤我们需要的信息,具体代码如下:

movie = {}        # 用作后面的存放电影的数据
# text_list = zoom.xpath(".//p/text()|.//p/span/text()")        # 版本1.0,没有考虑到有的页面中会多出span标签
# text_list = zoom.xpath(".//p/span/text()|.//p/text()")        # 版本2.0,没有考虑到有的页面中会缺少标签
text_list = zoom.xpath(".//text()")                             # 版本3.0,直接获取页面中的文本,进行过滤
for (index, text) in enumerate(text_list):
    # print(text)
    if text.startswith("◎译  名"):
        movie["teanslation_title"] = text.replace("◎译  名", "").strip()
    elif text.startswith("◎片  名"):
        movie["real_title"] = text.replace("◎片  名", "").strip()
    elif text.startswith("◎年  代"):
        movie["time"] = text.replace("◎年  代", "").strip()
    elif text.startswith("◎产  地"):
        movie["place"] = text.replace("◎产  地", "").strip()
    elif text.startswith("◎类  别"):
        movie["category"] = text.replace("◎类  别", "").strip()
    elif text.startswith("◎语  言"):
        movie["language"] = text.replace("◎语  言", "").strip()
    elif text.startswith("◎上映日期"):
        movie["release_time"] = text.replace("◎上映日期", "").strip()
    elif text.startswith("◎豆瓣评分"):
        movie["douban_score"] = text.replace("◎豆瓣评分", "").strip()
    elif text.startswith("◎片  长"):
        movie["length"] = text.replace("◎片  长", "").strip()
    elif text.startswith("◎导  演"):
        movie["director"] = text.replace("◎导  演", "").strip()
    elif text.startswith("◎主  演"):
        actors = []
        actors.append(text.replace("◎主  演", "").strip())
        for num in range(index + 1, index + 10):
            if (text_list[num].startswith("◎简  介")):
                break
            else:
                actors.append(text_list[num].strip())
        movie["actors"] = actors
    elif text.startswith("◎简  介"):
        conttent_index = index + 1
        movie["introduction"] = text_list[conttent_index].strip()

# 由于页面的原因,对下载链接进行特殊过滤
if len(zoom.xpath(".//td/a/@href")) > 0:
    download_url = zoom.xpath(".//td/a/@href")[0]
elif len( zoom.xpath(".//td//a/@href")) > 0 :
    download_url = zoom.xpath(".//td//a/@href")[-1]
else:
    download_url = "爬取失败,手动修改迅雷下载链接!"

movie["download_url"] = download_url
print("·", end=" ")             # 简单的标识,在爬取的时候,成功爬取一部电影,就会打印出一个“·”
return movie

四、将数据处理成json格式,保存到本地json文件中

完成上述任务,我们的爬虫也基本上已经接近尾声。下面要做的就是,调用封装上述代码的函数,将数据处理成json格式,然后以每一列表为单位,存储到本地json文件中。

page_num = 1
page_urls = movie_list_page()
# 以每一列表页为单位,完成每一列表页中电影的爬取,处理成json,写入到本地文件中
for (index, page_url) in enumerate(page_urls):
    file_name = "new_movie_" + str(index + page_num) + ".json"      # 设置存放每一页电影信息的json文件的名称
    one_page_movie_content = []     # 每一页中所有电影的信息
    movie_detail_urls = get_detail_url(page_url)
    for movie_detail_url in movie_detail_urls:
        movie_content = get_movie_content(movie_detail_url)
        one_page_movie_content.append(movie_content)
    # 将爬取的每一页的电影数据,分别写入到一个json文件中
    one_page_movie_content_str = json.dumps(one_page_movie_content, ensure_ascii=False, indent=2)
    with open(file_name, "w", encoding="utf-8") as f:
        f.write(one_page_movie_content_str)
    print("第" + str(index + page_num) + "页电影爬取完成,写入到" + file_name + "文件中")

四、爬虫完成代码下载:

好的,您想了解关于Java版Web搜索爬虫系统和Java开源爬虫框架WebCollector的教程,主要是如何爬取搜索引擎的内容,对吗?那我来给您介绍一下。 WebCollector是一款Java开源爬虫框架,它基于Jsoup解析库,提供了一系列简单易用的API,可以帮助用户快速开发爬虫程序。WebCollector可以用于爬取各种类型的网站,包括搜索引擎。 下面是一个简单的WebCollector爬虫程序示例,可以用来爬取百度搜索结果页面的内容: ```java import cn.edu.hfut.dmic.webcollector.model.Page; import cn.edu.hfut.dmic.webcollector.net.HttpRequest; import cn.edu.hfut.dmic.webcollector.net.HttpResponse; import cn.edu.hfut.dmic.webcollector.net.Requester; import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler; public class BaiduSearchCrawler extends BreadthCrawler { public BaiduSearchCrawler(String crawlPath, boolean autoParse) { super(crawlPath, autoParse); this.addSeed("https://www.baidu.com/s?wd=webcollector"); } public void visit(Page page, HttpRequest httpRequest, HttpResponse httpResponse) { System.out.println(page.getHtml()); } public static void main(String[] args) throws Exception { BaiduSearchCrawler crawler = new BaiduSearchCrawler("crawl", true); crawler.setThreads(10); crawler.start(2); } } ``` 在这个示例中,我们定义了一个名为BaiduSearchCrawler的类,它继承自BreadthCrawler类。在BaiduSearchCrawler的构造函数中,我们指定了爬虫程序的爬取路径和是否自动解析网页内容。然后,我们使用addSeed()方法添加了一个种子URL,这个URL是百度搜索webcollector的结果页面。 在visit()方法中,我们定义了爬取页面时的处理逻辑,这里我们只是简单地将页面内容打印出来。在main()方法中,我们创建了一个BaiduSearchCrawler对象,设置了线程数为10,并启动了爬虫程序。 当您运行这个程序时,它将会爬取百度搜索webcollector的结果页面,并将页面内容打印出来。 当然,实际的爬虫程序往往比这个示例要复杂得多,需要考虑到各种情况和异常处理。但是,WebCollector的API非常简单易用,您可以根据自己的需求快速开发出符合要求的爬虫程序。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值