python爬虫爬取豆瓣top250电影影评

最新推荐文章于 2024-08-10 19:42:39 发布

花妖huayao

最新推荐文章于 2024-08-10 19:42:39 发布

阅读量2.2k

点赞数 3

分类专栏：爬虫文章标签： python 豆瓣爬虫

本文链接：https://blog.csdn.net/qq_33433822/article/details/78699586

版权

本文介绍了作者使用Python爬虫获取豆瓣Top250电影短评的实践过程，包括遇到的IP封锁问题和解决方法，以及数据库中表情编码问题的解决方案。通过改变UA避免频繁访问导致的IP封锁，并利用bid参数保持访问的稳定性。目前爬虫已成功抓取四万条记录。

摘要由CSDN通过智能技术生成

信息系统课程项目，小组准备做一个电影推荐系统，自己选了觉得很有趣的资源模块，需要获取电影的评价资源等信息。花了大约一周看Web Scraping with Python这本书，对爬虫有了大体但是初略的了解。本来想把scrapy框架学完以后再写，但是看scrapy的文档觉得有点难懂。所以暂时放弃了对它的学习开始自己试着实现，有问题了再解决。
上一周实现了在百度知道上面获取了豆瓣top250电影的百度云资源，主要思路就是根据搜索关键词构造百度知道的url，并且以此url为起始url开始深度优先遍历五层，因为百度知道的界面很规律，并且百度似乎没有很严格的反爬虫措施，我这么一个刚刚开始写爬虫的小白就爬取了大约三千多个百度云资源。虽然资源链接很多都是失效的，但是还是很开心的。因为资源链接密码的处理上有点问题，所以暂时不介绍这个爬虫。
今天想要挑战一下豆瓣，所以就开始试着爬取豆瓣上top250电影的短评，起初就在请求上面更改了一下UA，其余像是时间间隔，IP，cookie全都没有设置，所以这个笨笨的爬虫很容易就被豆瓣识别了，一上午我想要访问豆瓣都需要登录。
最后同学找到一篇文章，文章的大意是说，第一次访问豆瓣时候，豆瓣会给客户端分配一个bid，随后的访问，如果带着这个bid，即便访问再频繁，豆瓣顶多会判定这个bid失效，但是不会封掉IP地址。试了一下似乎是有用的，用这个方法，爬取豆瓣top250的电影短评，仍旧是没有设置时间间隔，但是爬虫一直在运行，没有出现上午ip被封掉的情况。
这个爬虫大致的思路是，从top250电影页面出发，找到这些电影相应的影评所在的页面，接着只需要依次的在影评页面里找到Next页面所对应的url就可以了，思路很简单的。当然这种思路的问题在于对于任意一个电影，对于未登录用户，只能访问前11页短评，后面的短评需要登录才可以看到。网上挺多实现了登录豆瓣功能的代码，思路也都不难，只是觉得后面的影评也没有特别大的价值，就暂时没有想着获取这些影评。以后可以当作学习的材料来把这个爬虫的缺陷给完善了。
因为是刚刚入门爬虫，所以下面的代码没有用到任何的框架，而且没有进行多线程处理。
另外在实现时候，数据库方面也出了一点小问题，主要在于评论里面包含表情，这些表情需要四个字节编码，而utf-8编码最多有三个字节，所以把这些表情存到数据库中时候会出现无法解析的字符串。解决办法是把数据库的编码方式由utf8改为utf8mb4，后者可以使用四个字节对字符串编码。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
from selenium import webdriver
import pymysql
import top250
import re

'''连接数据库'''
conn=pymysql.connect(host='127.0.0.1',user=user_name,passwd=password,db='mysql',charset='utf8mb4')
cur=conn.cursor()
cur.execute(