爬取豆瓣的战狼影评(cookies 云词)

最新推荐文章于 2024-05-11 07:52:57 发布

sakura_ll

最新推荐文章于 2024-05-11 07:52:57 发布

阅读量940

点赞数 2

分类专栏： python 文章标签： cookie 豆瓣云词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sakura_ll/article/details/77707348

版权

本文介绍爬豆瓣电影的战狼影评，并将影评进行清除(去符号、分词、去重、统计)，最终做成词云。最重要的是，豆瓣是需要登录的，如果不登录，爬到第十页左右，会失败。登录的话，可以爬到6000多个影评，才会需要验证码。登录是cookies。先要模拟登录，这样可以得到网页返回的信息，然后利用这些信息，去request申请网页，得到网页返回的html信息(包含影评信息

摘要由CSDN通过智能技术生成

本文介绍爬豆瓣电影的战狼影评，并将影评进行清除(去符号、分词、去重、统计)，最终做成词云。

最重要的是，豆瓣是需要登录的，如果不登录，爬到第十页左右，会失败。登录的话，可以爬到6000多个影评，才会需要验证码。

登录是cookies。先要模拟登录，这样可以得到网页返回的信息，然后利用这些信息，去request申请网页，得到网页返回的html信息(包含影评信息等)。得到后，进行正则语言来筛选出自己要的信息，保存在zy.csv中。PS：因为这个模拟登录，最后只登陆一次，因为如频繁登录，会被要求输入验证码，是一件相当麻烦而且目前我还未能解决的问题，所以当第一次模拟登录得到信息后，就可以将模拟登录这里的代码屏蔽掉。

整体代码如下：（python_pachong项目中的huic.py中的代码）

#!/usr/bin/env python

# coding=utf-8

from Tkinter import*

import tkMessageBox

import urllib

import urllib2

import re

import requests

import sys

import csv

import codecs

import cookielib

from pip._vendor.requests.cookies import CookieConflictError

reload(sys)

sys.setdefaultencoding("utf-8")

csvfile=file('zy.csv','wb')

csvfile.write(codecs.BOM_UTF8)

writer=csv.writer(csvfile)

def DoPa(html): #两个参数传进来的是URL和一个编好码的K-V对

#以下这些cookie之类的，就是已经知道了登录返回信息，可以利用这些cookie信息去爬网页，然后正则语言来抠出有用信息。

# 创建MozillaCookieJar实例对象

cookie = cookielib.MozillaCookieJar()

# 从文件中读取cookie内容到变量

cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)

# 创建请求的request

req = urllib2.Request(html)

# 利用urllib2的build_opener方法创建一个opener

print cookie

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

response = opener.open(req)

# print response.read()

text=response.read()

st=r'<divclass=\"comment\">.*?</div>'

ll=re.findall(st, text, re.S)

x=len(ll)

for i in range(0,x):

number=re.compile('.*?<spanclass=\"votes\">(.*?)</span>')

Num=number.findall(ll[i])

name=re.compile(

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取豆瓣的战狼影评(cookies 云词)

本文介绍爬豆瓣电影的战狼影评，并将影评进行清除(去符号、分词、去重、统计)，最终做成词云。最重要的是，豆瓣是需要登录的，如果不登录，爬到第十页左右，会失败。登录的话，可以爬到6000多个影评，才会需要验证码。登录是cookies。先要模拟登录，这样可以得到网页返回的信息，然后利用这些信息，去request申请网页，得到网页返回的html信息(包含影评信息
复制链接

扫一扫

专栏目录

sakura_ll CSDN认证博客专家 CSDN认证企业博客

码龄7年

14: 原创

21万+: 周排名

44万+: 总排名

2万+: 访问

: 等级

310: 积分

3: 粉丝

22: 获赞

3: 评论

80: 收藏

私信

关注

热门文章

分类专栏

python 9篇

最新评论

主程序不退出的前提下，当干掉其子线程时，其子线程下开启的多个子线程如何干掉？
ctotalk: 好好学习，天天向上.
进度接口--＞进度引擎
woyaozuobishe: 看你的情况应该是重构了进度引擎代码，重构是做好也是有效的学习代码的方式之一。现在回头看看之前踩过的坑，有没有发现都是可以进步和提高的地方。好的代码也要经得起推敲和时间的考验，加油~！
shell脚本初学
woyaozuobishe: 不错，不错温故而知新

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。