【Python_006】Python爬虫抓取豆瓣电影影评

本文介绍如何使用Python的urllib.request和BeautifulSoup4库抓取豆瓣电影的影评。通过设置header避免HTTP Error 418,利用BeautifulSoup遍历HTML结构,提取评论内容。示例代码展示了获取短评的详细步骤。
摘要由CSDN通过智能技术生成

写在前面:
我在上一篇博客中【Python_005】利用jieba及wordcloud生成词频及词云图 ,为了测试切词和词云图的效果,从豆瓣爬了电影的100条短评,本篇博客就来分享一下如何爬豆瓣影评 (当然还是以神夏为例嘎嘎嘎)

在这里插入图片描述

使用到的模块

抓取主要使用到两个模块:urlib.request 和 BeautifulSoup

urllib.request

urllib.request 用于打开URL的可扩展库
官方文档

用urllib.request中的 request函数发送请求,urlopen函数可返回网址源代码

需要加入header信息,如果不加可能会发生HTTP Error 418

找到header方法,我这边使用的是Chrome, 打开一个网页,按F12进入开发者页面, 点Network -> Header,找到User Agent开头的一串,就是header

from urllib.request import urlopen, Request

url = 'https://movie.douban.com/explore#!type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start=0'

headers={
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)....../537.36'}

resp = Request(url, headers=headers)
req = urlopen
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值