微博评论爬虫与词云图绘制

目录

一、实验目的... 1

二、实验环境... 1

三、实验内容... 2

(1)爬取微博评论... 2

(2)结巴分词... 7

(3)初始词云图绘制.. 8

(4)改良的词云图绘制... 9

四、总结与心得体会... 10

(1)总结... 10

(2)心得体会... 10

一、实验目的

1)了解“大数据可视化”的基本组成结构;

2)掌握微型大数据可视化常用软件的基本操作方法;

3)体验大数据可视化:词云实现的效果。

4)首先通过熟悉Excel、Python等软件的编程环境以及基本操作对数据进行读取、显示、处理和保存等操作,提升学生的实际动手能力。

二、实验环境

硬件:微型图像处理系统,

包括:主机, PC机;

操作系统:Windows 11        

应用软件:Jupyter Notebook, pycharm

数字图像处理软件:Excel/Python

三、实验内容

本实验通过python爬虫获取关于“地摊经济”的微博文章下的评论文本,随后绘制出评论的词云图并改良,具体步骤如下:

(1)爬取微博评论:使用python爬虫获取微博“#人民锐评#:#地摊经济升温不能发烧#”(【#人民锐评#:#地... - @人民日报的微博 - 微博 (weibo.com))下的评论;

(2)结巴分词:使用python工具包“jieba”对评论进行全模式结巴分词;

(3)初始词云图绘制:使用python工具包“wordcloud”进行词云图尝试绘制;

(4)改良的词云图绘制:删除单字无用的词,并且手动添加停用词,重新绘制包含更多信息的词云图。

(1)爬取微博评论

选择一个主题为“地摊经济”的微博评论区进行爬取,微博正文界面和评论界面如下图所示:

使用python工具包“requests”编写爬虫代码如下:

import os
import re
import requests
import pandas as pd
import datetime
from time import sleep
import random
from  fake_useragent import UserAgent

def trans_time(v_str):
    GMT_FORMAT =
'%a %b %d %H:%M:%S +0800 %Y'
   
timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)
    ret_time = timeArray.strftime(
"%Y-%m-%d %H:%M:%S")
   
return ret_time


def tran_gender(gender_tag):
   
if gender_tag == 'm':
       
return ''
   
elif
gender_tag == 'f'<

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值