开头提醒
本次爬取的是用户评论,只供学习使用,不会进行数据的传播。希望大家合法利用爬虫。
获得数据
#总程序
import requests
from fake_useragent import UserAgent
import time
fu=UserAgent()
headers={
'User-Agent':fu.random
}
page_list=range(0,10)
#爬取10页的数据;需要的时间会很久
for page in page_list:
#这些参数最后是拼接到?后面构成URL的参数
params={
'start':20*page,
'sort':'time'
}
url="https://movie.douban.com/subject/1889243/reviews"
req=requests.get(