python爬虫：多线程爬取Endgame的豆瓣短评并生成词云图

最新推荐文章于 2020-12-07 16:14:48 发布

Eric_ariel

最新推荐文章于 2020-12-07 16:14:48 发布

阅读量835

点赞数 1

分类专栏：爬虫文章标签： Endgame 爬虫词云

本文链接：https://blog.csdn.net/Eric_ariel/article/details/89530429

版权

~~本文由于爬取了短评，未处理数据，结果中存在部分剧透！！慎读！~~

结果展示

主要通过爬取复联4豆瓣短评中前500条好评与前500条差评（因为豆瓣限制，只能爬前500条），并生成词云图：

环境

开发环境：
Anaconda for Win 10
使用库：

import csv
import threading
import requests
from lxml import etree
from queue import Queue
import matplotlib.pyplot as plt
from wordcloud import WordCloud

构建思路

采取了多线程，定义了生产者和消费者。生成者负责对各网页进行处理爬取短评，消费者负责对所有短评数据进行存档。最后定义词云函数对短评文件进行处理，生成词云图。

生产者

class Producer(threading.Thread):
    def __init__(self,page_queue,txt_queue,*args,**kwargs):
        super(Produce

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Eric_ariel

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫：多线程爬取Endgame的豆瓣短评并生成词云图

本文由于爬取了短评，未处理数据，结果中存在部分剧透！！慎读！结果展示主要通过爬取复联4豆瓣短评中前500条好评与前500条差评（因为豆瓣限制，只能爬前500条），并生成词云图：环境开发环境：Anaconda for Win 10使用库：import csvimport threadingimport requestsfrom lxml import etreefrom q...
复制链接

扫一扫