《我不是药神》影评，逐页评论自动生成词云

最新推荐文章于 2020-12-23 16:20:51 发布

布衣弓长

最新推荐文章于 2020-12-23 16:20:51 发布

阅读量651

点赞数 1

分类专栏：网上收集python相关资料 python 计算机等级考试 21天学通python习题解答文章标签：爬虫豆瓣 python 词云影评

本文链接：https://blog.csdn.net/weixin_41809469/article/details/85146942

版权

注意事项：

生成词云的图片必须是黑白照片
豆瓣不登录用户只能访问到影评的前12页的数据
豆瓣影评数据只展示24页
本方法是上一篇博客的另一种写法
爬取豆瓣的全部内容目前还不太容易，真正可行的我还没见到，希望各位大侠能真正的爬出来分享。


import requests
from bs4 import BeautifulSoup
import time
import jieba
from wordcloud import WordCloud
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import re
 
def getHtml(url):
    try:
        r = requests.get(url,headers={
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; \
WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360EE'},\
                         cookies={
   'cookie':'1012'})
        r.raise_for_status()
        r.encoding = "utf-8"
        return r.text
    except:
        print("到此为止。原因豆瓣不登录用户只能访问到影评的前12页的数据，\
登录后的用户可以看到前24页的数据（豆瓣影评数据只展示24页")

最低0.47元/天解锁文章

布衣弓长

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《我不是药神》影评，逐页评论自动生成词云

注意事项：生成词云的图片必须是黑色照片豆瓣不登录用户只能访问到影评的前12页的数据豆瓣影评数据只展示24页本方法是上一篇博客的另一种写法爬取豆瓣的全部内容目前还不太容易，真正可行的我还没见到，希望各位大侠能真正的爬出来分享。import requestsfrom bs4 import BeautifulSoupimport timeimport jiebafrom wor...
复制链接

扫一扫