注意事项:
- 生成词云的图片必须是黑白照片
- 豆瓣不登录用户只能访问到影评的前12页的数据
- 豆瓣影评数据只展示24页
- 本方法是上一篇博客的另一种写法
- 爬取豆瓣的全部内容目前还不太容易,真正可行的我还没见到,希望各位大侠能真正的爬出来分享。
import requests
from bs4 import BeautifulSoup
import time
import jieba
from wordcloud import WordCloud
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import re
def getHtml(url):
try:
r = requests.get(url,headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; \
WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360EE'},\
cookies={
'cookie':'1012'})
r.raise_for_status()
r.encoding = "utf-8"
return r.text
except:
print("到此为止。原因豆瓣不登录用户只能访问到影评的前12页的数据,\
登录后的用户可以看到前24页的数据(豆瓣影评数据只展示24页")