Python正则匹配抓取豆瓣电影链接和评论代码分享

最新推荐文章于 2023-09-25 21:26:16 发布

小可爱酥酥

最新推荐文章于 2023-09-25 21:26:16 发布

阅读量766

点赞数 5

分类专栏：关于Python 文章标签： python 正则表达式爬虫 Python实战 js

本文链接：https://blog.csdn.net/ChengYin1124/article/details/117469353

版权

本文介绍如何使用Python3和正则表达式抓取豆瓣电影的链接及评论，内容包括按评分排序的电影信息，以及利用requests库进行网络请求。同时，提供了学习与交流技术的QQ群信息。

摘要由CSDN通过智能技术生成

抓取豆瓣各类型电影的链接和评论，按评分排列

使用工具：

Python3+pycharm

抓取请求：

request

代码如下:


import urllib.request
import re
import time
def movie(movieTag):

    tagUrl=urllib.request.urlopen(url)
    tagUrl_read = tagUrl.read().decode('utf-8')
    return tagUrl_read
def subject(tagUrl_read):
    ''' 
        这里还存在问题：
        ①这只针对单独的一页进行排序，而没有对全部页面的电影进行排序
        ②下次更新添加电影链接，考虑添加电影海报
        ③需要追加列表
        ④导入到本地txt或excel中
        ⑤在匹配电影名字时是否可以同时匹配链接与名字、评分、评论组成数组
        ⑥
    '''
#正则表达式匹配电影的名字（链接）、评分与评论    
    nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.]+)\/"\s+title="(.+)"',tagUrl_read)
    scoreURL = re.findall(r'<span\s+class="rating_nums">([0-9.]+)<\/span>',tagUrl_read)
    evaluateURL = re.findall(r'<span\s+class="pl">