学习抓取猫眼电影排行

最新推荐文章于 2021-10-17 16:23:23 发布

xytwo

最新推荐文章于 2021-10-17 16:23:23 发布

阅读量324

点赞数

分类专栏： python 网络爬虫文章标签： python 爬虫猫眼电影排行

本文链接：https://blog.csdn.net/qq_43533532/article/details/86689739

版权

网络爬虫同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

抓取目标https://maoyan.com/board/4猫眼电影TOP100的电影信息
使用requests和正则表达式
抓取分析
站点url为https://maoyan.com/board/4，打开看到榜单信息等
跳转第二页url变为https://maoyan.com/board/4?offset=10，第三页https://maoyan.com/board/4?offset=20，对比不难发现url中参数offset代表电影序号偏移量。
抓取首页

import requests

def get_one_page(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
    }
    r = requests.get(url, headers=headers)
    if r.status_code == 200:
        return r.text
    return None

def main():
    url = 'https://maoyan.com/board/4'
    html = get_one_page(url)
    print(html)

main()

正则提取内容
首先是排名信息，class=“board-index”，用非贪婪匹配，正则写为<dd>.*?board-index.*?>(.*?)
提取电影图片，检查发现保存链接为a节点内第二个img节点，正则写为<dd>.*?data-src="(.*?)"
同样原理，最后的正则表达式为<dd>.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?>(.*?)</a>.*?star.*?>(.*?).*?releasetime.*?>(.*?).*?interger.*?>(.*?).*?fraction.*?>(.*?)
定义成函数

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5] + item[6]
        }

将信息写入文件

def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')

分页爬取

if __name__ == '__main__':
    for i in range(10):
        main(offset=i * 10)
        time.sleep(1)

优化下主函数

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

xytwo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习抓取猫眼电影排行

抓取目标https://maoyan.com/board/4猫眼电影TOP100的电影信息使用requests和正则表达式抓取分析站点url为https://maoyan.com/board/4，打开看到榜单信息等跳转第二页url变为https://maoyan.com/board/4?offset=10，第三页https://maoyan.com/board/4?offset=20，对...
复制链接

扫一扫