前言:
最近有点时间,就写个东西玩玩,就是分析电影评论做成词云图。这次没有采用python去爬取电影评论,而是采用了java中的多线程和线程池去爬取电影评论,但是用评论做词云图使用python写的。如果不喜欢用java做爬虫的朋友,也可以换成用python语言写,过程不是很重要,看自己喜好。
环境:
windows 10
jdk 1.7
python 3.5
成果:
作品链接:
请大家随手 star 下不甚感激
java多线程爬虫的部分:https://github.com/vicoqi/java-crawl/tree/master/java_spider
python 做词云图的部分:https://github.com/vicoqi/python_crawl/tree/master/word-cloud
一、爬取电影评论
这里我抓取的电影评论是《肖申克的救赎》,当然你们也可以换电影爬取,只需要换到URL 中的 subject后面的id数就好。
由于采用的是java语言写的,所以我先说说思路。不想看思路的直接去github上看代码
1)爬取代理网站上的代理IP 和端口&#x