本文由于爬取了短评,未处理数据,结果中存在部分剧透!!慎读!
结果展示
主要通过爬取复联4豆瓣短评中前500条好评与前500条差评(因为豆瓣限制,只能爬前500条),并生成词云图:
环境
开发环境:
Anaconda for Win 10
使用库:
import csv
import threading
import requests
from lxml import etree
from queue import Queue
import matplotlib.pyplot as plt
from wordcloud import WordCloud
构建思路
采取了多线程,定义了生产者和消费者。生成者负责对各网页进行处理爬取短评,消费者负责对所有短评数据进行存档。最后定义词云函数对短评文件进行处理,生成词云图。
生产者
class Producer(threading.Thread):
def __init__(self,page_queue,txt_queue,*args,**kwargs):
super(Produce