舆情分析阶段划分小结

舆情分析阶段划分小结

问题总结

现完成情况

  1. 使用方法
    文本相似度计算方法:余弦相似度
    聚类方法:K-Means

  2. 结果及分析
    公交坠江数据集 预设相似度值1.24 单位时间长度10min
    时间段:2018-10-28 11:28 ----11-06 20:00 窗口数量:34
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    结果分析:

  3. 窗口划分的整体趋势:窗口大小逐渐增大 因时间跨度较小 反应不是很强烈;

  4. 窗口划分的周期性:晚间(约晚十点到早八点)窗口划分大,发文量小。每天上午时段最活跃。

  5. 窗口长度和窗口内单位时间文本量有明显的负相关关系。整体上看,讨论热烈程度初始即为高水平并迅速上升至小高峰,随后逐渐下降,在事件结束前夕达到最高峰。此时认为事件发展到新阶段主题发生变化(现成视频曝光,热烈讨论事故责任)

存在的问题

  1. 相似论文:该论文思路为数据集预处理–LDA获取主题词–根据余弦相似度划分时间窗口–分析评价 。本实验思路为数据集预处理–根据余弦相似度划分时间窗口–k-Means聚类得到主题词–分析评价
  2. 对时间窗口的评价:
    若对聚类结果评价:1.常用的准确率回归率等方法因标签问题难以实现。2.聚类的正确率等评价未必能反应窗口划分的合理性。认为聚类结果主题词的变化程度更有意义,用以验证相似度差异的正确性。
    若直接对时间评价:整体上符合作息规律性和事件发展一般规律,但对于大型数据集如九寨沟数据集,时间跨度长文本量大,往往相邻窗口(特别是窗口很小时)主题词重合度高,难以解释。
  3. .缺少对比实验(因缺少相关指标):现使用的余弦相似度和K-Means为最基本版,没有替换方法或是改进。(仅实验了LDA,聚类效果明显不好,放弃尝试)
  4. 相邻窗口主题词相似度高:1.文本跨时间长,窗口划分细。2.计算相似度时,设定窗口内相似度比窗口间相似度重要。调整权重后主题词变化变得明显一些,未影响其他因素。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值