【Python_006】Python爬虫抓取豆瓣电影影评

最新推荐文章于 2021-12-04 14:49:59 发布

Haaaley

最新推荐文章于 2021-12-04 14:49:59 发布

阅读量645

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/haley_yuen/article/details/105519910

版权

本文介绍如何使用Python的urllib.request和BeautifulSoup4库抓取豆瓣电影的影评。通过设置header避免HTTP Error 418，利用BeautifulSoup遍历HTML结构，提取评论内容。示例代码展示了获取短评的详细步骤。

摘要由CSDN通过智能技术生成

写在前面：
我在上一篇博客中【Python_005】利用jieba及wordcloud生成词频及词云图，为了测试切词和词云图的效果，从豆瓣爬了电影的100条短评，本篇博客就来分享一下如何爬豆瓣影评（当然还是以神夏为例嘎嘎嘎）

在这里插入图片描述

使用到的模块

抓取主要使用到两个模块：urlib.request 和 BeautifulSoup

urllib.request

urllib.request 用于打开URL的可扩展库
官方文档

用urllib.request中的 request函数发送请求，urlopen函数可返回网址源代码

需要加入header信息，如果不加可能会发生HTTP Error 418

找到header方法，我这边使用的是Chrome, 打开一个网页，按F12进入开发者页面，点Network -> Header，找到User Agent开头的一串，就是header

from urllib.request import urlopen, Request

url = 'https://movie.douban.com/explore#!type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start=0'

headers={
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)....../537.36'}

resp = Request(url, headers=headers)
req = urlopen

最低0.47元/天解锁文章

Haaaley

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【Python_006】Python爬虫抓取豆瓣电影影评

写在前面：我在上一篇博客中【Python_005】利用jieba及wordcloud生成词频及词云图，为了测试切词和词云图的效果，从豆瓣爬了电影的100条短评，本篇博客就来尝试一下正儿八经的爬豆瓣高分电影和影评使用到的模块抓取主要使用到两个模块：urlib.request 和 BeautifulSoupurlib.request 用于打开URL的可扩展库官方文档用urlli...
复制链接

扫一扫

专栏目录