爬取链接:隐秘的角落豆瓣影评
本文源码:百度云 提取码 pra2
影评爬取
豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评、一般、差评各220条,共计630条。爬取维度为评论类型、点赞数、评分、发布日期、评论。
分析url
start:从第几条开始展示,豆瓣影评每一页都是20条评论,所以start应该是20的倍数。
limit:这个限制了每页显示多少评论,但修改数值也没用。
sort:根据热门/最新/好友进行排序, 这里我选择了热门。
status:P/F代表看过和想看,我选择了想看。
percent_type:影评类型,h/m/l分别代表好评/一般/差评,是我们需要修改的。
根据参数分析,我们得到BASE_URL应该是:
BASE_URL = 'https://movie.douban.com/subject/33404425/comments?start={}&limit=20&sort=new_score&status=P&percent_type={}'
页面解析
我使用的是Chrome浏览器,Ctrl+U显示网页源码,可以发现豆瓣影评部分并没有使用JS动态更新,所以我们可以直接对源码进行解析。
源码的部分解释如下图所示:
编写代码
# 初始URL
BASE_URL = "https://movie.douban.com/subject/33404425/comments?start={}&limit=20&sort=new_score&status=P&percent_type={}"
# 设置UA,Cookie
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36",
"Cookie": 'bid=6Y_umIrRUHk; __gads=ID=f3fa196be74c49f5:T=1589907087:S=ALNI_MbVwFaOcaNVABqsayjnOCawaNo-3A; gr_user_id=fe3032d1-40a6-4aef-93f4-054a36710beb; _vwo_uuid_v2=DE361BA9F9B9BACBDEB73CC87199709AE|bf1c5209c48152fea364a3ac6e60548f; ll="108296"; __yadk_uid=BNpZEeOtOgDz2raZXEavltn1VuJB005I; viewed="24715620_30231494"; __utma=30149280.669920134.1589907069.1593061398.1593764577.6; __utmc=30149280; __utmz=30149280.1593764577.6.6.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; ap_v=0,6.0; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1593764586%2C%22https%3A%2F%2Fwww.douban.com%2Fsearch%3Fq%3D%25E9%259A%2590%25E8%2597%258F%25E7%259A%2584%25E8%25A7%2592%25E8%2590%25BD%22%5D; _pk_ses.100001.4cf6=*; __utma=223695111.1716723746.1590498467.1590498467.1593764586.2; __utmb=223695111.0.10.1593764586; __utmc=223695111; __utmz=223695111.1593764586.2.2.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/search; ct=y; _pk_id.100001.4cf6=76ecf6aae620740b.1590498467.2.1593764786.1590498508.; __utmb=30149280.11.10.1593764577'
}