运用java爬虫和python做词云图

前言:

        最近有点时间,就写个东西玩玩,就是分析电影评论做成词云图。这次没有采用python去爬取电影评论,而是采用了java中的多线程和线程池去爬取电影评论,但是用评论做词云图使用python写的。如果不喜欢用java做爬虫的朋友,也可以换成用python语言写,过程不是很重要,看自己喜好。

环境:

        windows 10 

        jdk 1.7

        python 3.5

成果:


作品链接:

请大家随手 star 下不甚感激

            java多线程爬虫的部分:https://github.com/vicoqi/java-crawl/tree/master/java_spider

            python 做词云图的部分:https://github.com/vicoqi/python_crawl/tree/master/word-cloud

一、爬取电影评论

        这里我抓取的电影评论是《肖申克的救赎》,当然你们也可以换电影爬取,只需要换到URL 中的 subject后面的id数就好。

        由于采用的是java语言写的,所以我先说说思路。不想看思路的直接去github上看代码

        1)爬取代理网站上的代理IP 和端口,可以持久化到文件中等下次用,不用每次启动都去要去重新爬取代理网站上的代理Ip 和端口。收集 各种 USER-AGENT 头,每次做请求时随机切换。以上两个步骤都是为了防止反爬虫。

        2)把上一步收集到的代理信息,进行验证,验证成功的保存到set集合中,为后面定时持久化到文件。保存成功的就保存到队列中,为后面做出队列与入队列和重试。

        3)对访问到的数据进行解析,这里主要是采用了 jsoup 去解析。把解析数据保存到磁盘。

 详细的代码部分请移步上面的github链接关于java 部分。

二、对评论进行解析

        这个部分我采用的是python 语言写的,因为这个分词解析和第三部分的做词云图很配合,所以我图方便就都用python写了。

        这个部分需要安装python 的一些类库:

        jieba、matplotlib、numpy、pillow 。

        所以我建议大家最好安装好pip这个包管理器,需要什么只需输入 pip install 类库名称  就可以了。

        但是有时候你会发现安装一些类库用 pip 会失败。所以下面我就从网上找了一些亲测的解决办法,里面包括我上面所提到所有东西的安装方法。

        https://blog.csdn.net/piaomaishuangshuang/article/details/52181604
        https://blog.csdn.net/heyuexianzi/article/details/76851377
        https://www.jianshu.com/p/7af0f10a2374

        详细的代码部分请移步上面的github链接关于python 部分。

三、做词云图

        根据上一步做的分词解析结果,我们就可以做词云图了。

        1)做词云图之前我们需要一个类库,那就是wordCloud库,有了它我们才能做到文章开头那样的效果图片。首先需要大家安装这个wordcloud这个类库。安装办法我也给大家如下:

https://www.jianshu.com/p/7af0f10a2374

        2)下载字体,因为这个wordcloud对中文的支持不太好,所以要下载 Yahei.ttf。

            字体下载链接如下:    

http://vdisk.weibo.com/s/uwZsrNXe4D4SG

        3)项目中有两个python文件,一个是带背景图的,一个是不带的。可以看大家的喜好选择

不带背景图的代码

#3、生成词云图,这里需要注意的是WordCloud默认不支持中文,所以这里需已下载好的中文字库  
#无自定义背景图:需要指定生成词云图的像素大小,默认背景颜色为黑色,统一文字颜色:mode='RGBA'和colormap='pink'  
wc = WordCloud(font_path=r"D:\Python\Python35-32\worl_cloud\Monaco Yahei.ttf",background_color='white',width=800,height=600,max_font_size=50,  
               max_words=1000)#,min_font_size=10)#,mode='RGBA',colormap='pink') 

带背景图的代码

#3、初始化自定义背景图片  
image = Image.open(r'D:\pythonworkspace\word-cloud\back.jpg')  
graph = np.array(image)  
  
#4、产生词云图  
#有自定义背景图:生成词云图由自定义背景图像素大小决定  
wc = WordCloud(font_path=r"D:\Python\Python35-32\worl_cloud\Monaco Yahei.ttf",background_color='white',max_font_size=50,mask=graph)  
wc.generate(result)  

不带背景图的效果图:


详细的代码部分请移步上面的github链接关于python 部分。


总结:

        用java爬虫,让自己实践了多线程与线程池等知识,还用到了模板的设计思维。

        用python 做分析做词云图,让自己体会到了用python 做科学计数分析的强大与方便。


        



没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试