一、数据抓取
利用python软件,抓取豆瓣网上关于《向往的生活》的影视短评,进行网页爬虫,爬虫代码如下:import requests
import re
cookies=[cookie1,cookie2,cookie3]
url1='https://movie.douban.com/subject/26873657/comments?start=' #《向往的生活 第1季》豆瓣短评网址
url2='https://movie.douban.com/subject/27602222/comments?start='
#《向往的生活 第2季》豆瓣短评网址
url3='https://movie.douban.com/subject/30441625/comments?start='
#《向往的生活 第3季》豆瓣短评网址
urls=[url1,url2,url3]
comments=[]
for i in range(0,3):
print(urls[i])
for n in range(0,500, 20):
#获取目标网页
url = urls[i] +str(n) + '&limit=20&sort=new_score&status=P'
# print(url)
# print(n)
#打开目录,并获取内容
html =requests.get(url, cookies=cookies[i])
# print(html)
#pri