前言
文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者: 刘铨@ccis lab
ps:如有需要python学习资料的小伙伴可以加点击下方链接自行获取
一、分析url
1、分析豆瓣影评url
首先在豆瓣中,找到我们想要爬取的电影《冰雪奇缘2》
2、查看影片评论
二、爬取评论
分析网页源码
分析源码,可以看到评论在这个标签中,即代码为:
1 import urllib.request
2 from bs4 import beautifulsoup
3
4 def gethtml(url):
5 """获取url页面"""
6 headers = {'user-agent':'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/62.0.3202.94 safari/537.36'}
7 req = urllib.request.request(url,headers=headers)
8 req = urllib.request.urlopen(req)
<