python 豆瓣评论分析方法_基于Python的豆瓣影评分析——数据预处理

一、数据抓取

利用python软件,抓取豆瓣网上关于《向往的生活》的影视短评,进行网页爬虫,爬虫代码如下:import requests

import re

cookies=[cookie1,cookie2,cookie3]

url1='https://movie.douban.com/subject/26873657/comments?start='  #《向往的生活 第1季》豆瓣短评网址

url2='https://movie.douban.com/subject/27602222/comments?start='

#《向往的生活 第2季》豆瓣短评网址

url3='https://movie.douban.com/subject/30441625/comments?start='

#《向往的生活 第3季》豆瓣短评网址

urls=[url1,url2,url3]

comments=[]

for i in range(0,3):

print(urls[i])

for n in range(0,500, 20):

#获取目标网页

url = urls[i] +str(n) + '&limit=20&sort=new_score&status=P'

# print(url)

# print(n)

#打开目录,并获取内容

html =requests.get(url, cookies=cookies[i])

# print(html)

#pri

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值