爬虫 | Python爬取20000+猫眼影评实战

最新推荐文章于 2024-05-09 12:44:02 发布

Python当打之年

最新推荐文章于 2024-05-09 12:44:02 发布

阅读量3.5k

点赞数 9

分类专栏： Python爬虫文章标签： python 爬虫 pycharm

本文链接：https://blog.csdn.net/weixin_42152811/article/details/120127925

版权

Python爬虫专栏收录该内容

9 篇文章 8 订阅

订阅专栏

文章目录

1. 网页分析
2. 数据爬取
- 2.1 构造评论url
- 2.2 字段解析
3. 数据保存
推荐阅读

大家好，我是 👉【Python当打之年】

上一篇文章【爬取《白蛇2:青蛇劫起》20000+影评数据分析可视化】中我们根据20000+条猫眼影评分析了观众对国产动漫的一些看法，本期给大家介绍一下如何爬取这20000+数据，希望对你有所帮助，当然也可以在后台回复 –【白蛇2】– 直接获取。

1. 网页分析

网页版的猫眼只能显示有限的评论，APP版本可以看到所有评论，所以我们根据手机版网址来爬取数据。
在这里插入图片描述

手机版评论网址：

https://m.maoyan.com/mmdb/comments/movie/1200486.json?_v_=yes&offset=0&startTime=2018-08-01%2022%3A30%3A34

结果：
在这里插入图片描述

评论是和时间有关系的，所以我们找到时间规律就可以爬取想要时间段的评论内容了。
我们把刚才获取的评论用json解析器解析一下：

在这里插入图片描述

有我们需要的评论和时间，包括其他的一些字段，这样我们就有了时间来源，一直递推即可获取所有评论时间。

2. 数据爬取

2.1 构造评论url

代码：

start_time = '2021-09-01 00:00:00'
end_time = '2021-08-25 00:00:00'

while start_time > end_time:
    url = 'https://m.maoyan.com/mmdb/comments/movie/{}.json?_v_=yes&offset=0&startTime='.format(filmid) + start_time.replace(' ', '%20')
    print(start_time)
    time.sleep(random.uniform(3.1, 5.1))
    allinfo = get15info(url, headers)
    if allinfo:
        start_time = allinfo[-1][5]
        start_time = datetime.strptime(start_time, '%Y-%m-%d %H:%M:%S') - timedelta(seconds=1)
        start_time = datetime.strftime(start_time, '%Y-%m-%d %H:%M:%S')
        insert2excel(filepath, allinfo)
    else:
        start_time = datetime.strptime(start_time, '%Y-%m-%d %H:%M:%S') - timedelta(minutes=5)
        start_time = datetime.strftime(start_time, '%Y-%m-%d %H:%M:%S')

防止每次爬取的第一条与上一次爬取的最后一条数据重复（时间一致)，可以使用timedelta(seconds=1)函数在循环时时间减去1秒。

2.2 字段解析

这里仅解析用户id、用户名、城市、评分、评论内容、评论时间，如需其他字段，可根据需要增减。

def get15info(url, headers):
    allinfo = []
    try:
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = 'utf-8'
        datas = json.loads(r.text)
        for item in datas['cmts']:
            # ID
            ID = item['id'],
            # 用户名
            nickName = item['nickName'],
            # 城市
            cityName = item['cityName'] if 'cityName' in item else '', # 处理cityName不存在的情况
            # 评论
            content = item['content'].replace('\n', ' '), # 处理评论内容换行的情况
            # 评分
            score = item['score'],
            # 评论时间
            startTime = item['startTime']
            comments = [ID[0], nickName[0], cityName[0], score[0], content[0], startTime]
            print(comments)
            allinfo.append(comments)
        return allinfo
    except:
        if len(allinfo)>0:
            return allinfo

结果：
在这里插入图片描述

3. 数据保存

这里我们使用openpyxl库进行保存，小伙伴们也可以保存成csv格式或者保存至数据库中进行后续分析。

def insert2excel(filepath,allinfo):
    try:
        if not os.path.exists(filepath):
            tableTitle = ['id', '用户名', '城市', '评分', '评论', '评论时间']
            wb = Workbook()
            ws = wb.active
            ws.title = 'sheet1'
            ws.append(tableTitle)
            wb.save(filepath)
            time.sleep(3)
        wb = load_workbook(filepath)
        ws = wb.active
        ws.title = 'sheet1'
        for info in allinfo:
            ws.append(info)
        wb.save(filepath)
        print('文件已更新')
    except:
        print('文件更新失败')

结果：
在这里插入图片描述

数据分析部分：

爬取《白蛇2:青蛇劫起》20000+影评数据分析可视化

数据分析可视化在线运行：

https://www.heywhale.com/mw/project/6132e5898608050017004a5f

以上就是本期为大家整理的全部内容了，赶快练习起来吧，原创不易，喜欢的朋友可以点赞、收藏也可以分享（注明出处）让更多人知道。

文章首发微信公众号 “Python当打之年” ，每天都有python编程技巧推送，希望大家可以喜欢
在这里插入图片描述

Python当打之年

关注

9
点赞
踩
61

收藏

觉得还不错? 一键收藏
打赏
7
评论
爬虫 | Python爬取20000+猫眼影评实战

文章目录1. 网页分析2. 数据爬取2.1 构造评论url2.2 字段解析3. 数据保存推荐阅读大家好，我是 ????【Python当打之年】上一篇文章【爬取《白蛇2:青蛇劫起》20000+影评数据分析可视化】中我们根据20000+条猫眼影评分析了观众对国产动漫的一些看法，本期给大家介绍一下如何爬取这20000+数据，希望对你有所帮助，当然也可以在后台回复 –【白蛇2】– 直接获取。1. 网页分析网页版的猫眼只能显示有限的评论，APP版本可以看到所有评论，所以我们根据手机版网址来爬取数据。手
复制链接

扫一扫