python包——好玩的wordcloud

今天看到一篇推文,关于将正在热映的《战狼2》的评论爬下来,然后用文字云的效果展现出来,用来表现人们对战狼的一些看法。
预期效果如下:

这里写图片描述

这些字比较大的就是评论中出现次数最多的。所以无论那些喷子如何喷战狼,群众的眼睛还是雪亮的,个人角度,的确是个好片。

下面我从代码的角度来实现这个好玩的效果。

首先要得到这些评论信息,需要对爬虫进行学习,对python来说,爬虫程序还是比较好写的,我们先从爬取豆瓣的评论入手。

1.爬取豆瓣的评论

# -*-coding:utf-8 -*-
from urllib2 import urlopen #引入urllib2下的urlopen类,这个类可以对url进行操作,打开一个url链接

resp=urlopen('https://movie.douban.com/nowplaying/hangzhou/')
html_data=resp.read().decode('utf-8')
print (html_data)

这是爬虫最基础的程序片段,运行这段代码你就会将豆瓣热门电影页面全部在控制台打印出来。

要想对这个页面进行操作,就需要对页面内的每个html标签进行操作,需要引入一个新的包,可以对固定标签进行操作

#接上面代码
from bs4 import BeautifulSoup as bs
soup=bs(html_data,'html.parser')#将读取到的网页代码用指定解析器html.parser进行解析。

这里写图片描述
然后我们读取解析后的页面标签。
我们看网页里面正在热映的电影的标签为:nowplaying
而且可以看到每部电影都有特定的id,对应的标签为:data-subject,我们可以通过这个标签找到对应的电影评论

这里写图片描述


nowplaying_movie=soup.find_all('div',id='nowplaying')#通过soup对解析后的网页进行特定标签的读取,读取所有div,且id='nowplaying'的标签
nowplaying_movie_list=nowplaying_movie[0].find_all('li',class_='list-item')

print (nowplaying_movie_list)#将所有正在的播放的电影列表打印出来

这里解释一下代码,通过看网页源代码你可以发现div=’nowplaying’的标签包括了很多热门电影,而且这个包含热门电影标签位置在所有div=’nowplaying’里第一个,所以nowplaying_movie[0].find_all表示在这个标签下去寻找所有的li,且class_=’list-item’

这里写图片描述

这里每个对应一部电影

将整个系列打印出来。如果打印出来发现是:

这里写图片描述

很正常,可以参见我写的:字符编码——在python2中如何将txt中的utf-8转换成中文

你可以加个循环,就可以将整个列出来

for list in nowplaying_movie_list:
    print list

这里写图片描述

现在我们需要将网页里面的战狼2的id和名称提取出来,
看网页源代码可以看到战狼的名字在图片的alt标签里面,提取代码如下

#接上面代码
nowplaying_list=[]
for item in nowplaying_movie_list:
    nowplaying_dict={}
    nowplaying_dict['id']=item['data-subject']#提取每部影片的id,
    for tag_img_item in item.find_all('img'):#对每部影片的img进行提取
        nowplaying_dict['name']=tag_img_item['alt']
        nowplaying_list.append(nowplaying_dict)#将所有提取的正在热映的影片添加到list中

打印出来将会是这个样子

这里写图片描述

然后我们需要将所有的评论提取出来,进入到评论页面的标签
战狼的评论页面地址为:

https://movie.douban.com/subject/26363254/comments?status=P

注意subject后面对应的号码,这是战狼的网页代码里面的data-subject=”26363254”和我们之前提取出来的一样,所以需要将之前提取到的id进行拼装,拼成网址的格式。
我们写一个方法,对评论网址进行拼装,并打开拼装后的评论页面,进行类似的评论提取

def getCommentsById(movieId, pageNum):#输入影片的id,也就是data-subject
    eachCommentList = [];#评论列表
    if pageNum > 0:
        start = (pageNum - 1) * 20#观察发现每次进入下一页评论,可以找到规律
    else:
        return False
    requrl = 'https://movie.douban.com/subject/' + movieId + '/comments' + '?' + 'start=' + str(start) + '&limit=20'#将url进行拼装
    print(requrl)
    resp = urlopen(requrl)
    html_data = resp.read().decode('utf-8')#解析打开的网页
    soup = bs(html_data, 'html.parser')
    comment_div_lits = soup.find_all('div', class_='comment')
    for item in comment_div_lits:#找打评论所在标签p
        if item.find_all('p')[0].string is not None:
            eachCommentList.append(item.find_all('p')[0].string)
    return eachCommentList
#评论网页的地址,随着页数的变化改变的规律
https://movie.douban.com/subject/26363254/comments?start=27&limit=20&sort=new_score&status=P

这里评论所在的标签为p,进入网页源代码可以发现,在comment下的p标签内
这里写图片描述

然后开始调用上面的方法:

commentList=[]
for i in range(10):#因为没有登录豆瓣的原因,只能看前面的10页评论
    num = i + 1
    commentList_temp = getCommentsById(nowplaying_list[0]['id'], num)将热映电影id和跳转到评论第num页
    commentList.append(commentList_temp)
for comment in commentList:#将评论打印在控制台
    for item in comment:
        print (item)

输出效果如下:
这里写图片描述

前面所有的代码都是连在一起的。

这里便得到了所有的评论,我们可以将评论输出到控制台,将评论自行复制到一个新的txt文件。存放路径与py文件一起,得到comment.txt

其实对于这些评论数据还需要进行清洗和整理,比如去除一些标点符号和一个常用词。这里只是简洁实现版

这里我们只使用最简单的方法,也能实现相同的效果,就是将评论复制下来,重新写一个方法或文件,将评论直接生成为文字云。

# -*-coding:utf-8-*-
import jieba#需要引入两个包
from wordcloud import WordCloud
import matplotlib.pyplot as plt

mylist =[]

from pandas import *
a=open('comment.txt')#读入comment.txt
for line in a.readlines():
    mylist.append(newline)#将每行评论添加到list中

word_list = [" ".join(jieba.cut(sentence)) for sentence in mylist]#调用方法生成关键词列表
new_text = ' '.join(word_list)
wordcloud = WordCloud(font_path="simhei.ttf",                    background_color="black").generate(new_text)#这里simhei.ttf表示一种字体,百度可直接下载
plt.imshow(wordcloud)#画出生成的文字云
plt.axis("off")
plt.show()

以上便是简洁版的文字云效果,生成的效果如下:
这里写图片描述

这里需要注意一下,因为电影会随着时间改变,豆瓣排列位置会发生变动,也就是说,在调用getCommentsById(movieId, pageNum)方法时传入的id需要根据你的电影变化而改变,如果战狼已经排第5了,你就需要改变:

eachCommentList.append(item.find_all(‘p’)[0].string)

把[0]改为对应的位置下标[4]

总结

虽然做工粗糙,但是学到的东西还是很多,

  • urllib的对网页进行操作
  • 引入BeautifulSoup对解析的网页进行各个标签的读取
  • 利用文字云wordcloud对文字进行关键字提取并生成文字云

其中文字云wordcloud是一个包,这里给一下github的地址,感兴趣的话可以直接去看上面的example的代码,有很多好玩的用法

https://github.com/amueller/word_cloud

对于更精致的爬网页评论并对数据进行清洗请看:Python 爬虫实践:《战狼2》豆瓣影评分析


【原创文章】转载请注明出处:http://blog.csdn.net/wearge/article/details/77346138

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值