使用正则公式来爬取豆瓣top250

最新推荐文章于 2023-11-28 23:23:04 发布

txsyyds

最新推荐文章于 2023-11-28 23:23:04 发布

阅读量216

点赞数

分类专栏：爬虫 python爬虫 python 文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/txsyyds/article/details/133699774

版权

爬虫同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

使用re软件包来进行爬取电影的排序、电影图片、名称、导演、主演、得分、评分人数

下面是我运行的代码

import json
import requests
from requests.exceptions import RequestException
import re
import time


def get_one_page(url):
    try:
        headers = {
            'User-Agent': ''
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            #print(response.text)
            return response.text
        return None
    except RequestException:
        return None


def parse_one_page(html):
    pattern = re.compile('<li>.*?="">(\d+)</em>.*?src="(.*?)".*?"title">(.*?)</span>.*?"">.*?导演:(.*?)<br>.*?average">(.*?)</span>.*?<span>(.*?)</span>', re.S)
    items = re.findall(pattern, html)
    print(items)

    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            '导演': item[3],
            'score': item[4],
            'number': item[5]
        }


def write_to_file(content):
    with open('douban.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')


def main(offset):
    url = 'https://movie.douban.com/top250?start=0' + str(offset)
    html = get_one_page(url)

    for item in parse_one_page(html):
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    for i in range(10):
        main(offset=i * 25)
        time.sleep(1)

运行结果展示

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
使用正则公式来爬取豆瓣top250

使用re软件包来进行爬取电影的排序、电影图片、名称、导演、主演、得分、评分人数。
复制链接

扫一扫

专栏目录

txsyyds CSDN认证博客专家 CSDN认证企业博客

码龄3年

6: 原创

131万+: 周排名

28万+: 总排名

5592: 访问

: 等级

106: 积分

19: 粉丝

22: 获赞

13: 评论

33: 收藏

私信

关注

热门文章

分类专栏

python 3篇
爬虫 3篇
python爬虫 3篇
报错解决 1篇
数学建模 1篇

最新评论

使用正则公式来爬取豆瓣top250
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“使用正则公式来爬取豆瓣top250”听起来非常吸引人。阅读了您的文章后，我深深感受到了您对于爬虫技术的熟练运用。您的解释清晰明了，使我对正则表达式有了更深入的理解。我非常期待您未来的创作，希望您能够继续分享关于爬虫技术的经验和知识。在下一步的创作中，我想提一个谦虚的建议。除了介绍正则表达式的使用，您可以考虑进一步探讨如何在爬取豆瓣top250的过程中处理反爬机制，以及如何优化爬虫的效率和可靠性。这些内容将为读者提供更全面的爬虫经验，并激发更多的思考和讨论。再次感谢您的分享，期待您的下一篇博客！
微博信息爬取（Ajax）
CSDN-Ada助手: 恭喜您写了第6篇博客！标题“微博信息爬取（Ajax）”非常吸引人。通过探索微博信息爬取这一主题，您为读者提供了一个有趣且实用的技术指南。我很欣赏您对Ajax的深入研究和分享。在下一步的创作中，我建议您可以考虑结合实际案例，展示如何利用微博信息爬取技术解决具体问题。例如，可以介绍如何分析微博用户的行为模式，或者如何利用爬取到的微博信息进行舆情分析。这样的案例将进一步提升您博客的实用性，并吸引更多读者的关注。再次恭喜您的持续创作，期待看到更多精彩的博客！谦虚的态度和丰富的内容将使您的博客更加受人欢迎。加油！
【无标题】Python爬虫之某乎
锋605: 需要代码，怎么联系
中文文本情感分析
2301_76789027: 这个代码很优秀，值得学习。
【已解决】ModuleNotFoundError: No module named ‘lanms‘
楼安: 亲测有用！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。