本文主要分为数据获取(微博爬虫)、文本分析(主题抽取、情感计算)。
项目场景:以微博为数据源,分析新冠疫苗舆情的主题演化和情感波动趋势,结合时事进行验证,从而得出特殊事件对于舆情的特定影响,为突发公共事件的社交媒体舆情合理引导提供建议。
1.数据获取
包括微博正文爬虫、评论爬虫和用户信息爬虫。
具体是将这三个爬取的结果当做三个相联结的关系表,首先爬取正文,而后用正文的标识符定位到每一个评论,最后用评论的标识符定位到每一个用户的个人信息。
www.weibo.cn
爬虫代码:
#coding='utf-8'
import xlrd
import re
import requests
import xlwt
import os
import time as t
import<