【数据分享】维基百科Wiki负面有害评论（网络暴力）文本数据多标签分类挖掘可视化

拓端研究室

已于 2023-02-11 22:57:06 修改

阅读量830

点赞数

分类专栏： R语言文章标签： r语言神经网络 GARCH

于 2021-12-02 17:49:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19600291/article/details/121682765

版权

R语言专栏收录该内容

497 篇文章

订阅专栏

最近我们被客户要求撰写关于文本数据可视化的研究报告，包括一些图形和统计输出。

数据简介

讨论你关心的事情可能很困难。网络暴力骚扰的威胁意味着许多人停止表达自己并放弃寻求不同的意见。平台努力有效地促进对话，导致许多社区限制或完全关闭用户评论。

相关视频：文本挖掘：主题模型（LDA）及R语言实现分析游记数据

文本挖掘：主题模型（LDA）及R语言实现分析游记数据

时长12:59

AI团队正在研究工具，以帮助提高在线评论互动。一个重点领域是研究负面的在线行为，如有害评论（即粗鲁、不尊重或可能使某人离开讨论的评论）。到目前为止，他们已经构建了一系列可用模型。但是当前的模型仍然会出错，并且它们不允许用户选择他们感兴趣的有害评论类型，例如，某些平台可能可以接受亵渎，但不能接受其他类型的有害内容（查看文末了解数据获取方式)。

数据详情

数据格式

csv

字段

id

评论内容

有害的

严重有害的

猥亵

威胁

侮辱

身份_仇恨

大小

67191kb

样本量

159571

数据浏览

以前8行数据为例，我们来预览一下：

变量探索：

总体高频词

有害的高频词

严重有害的高频词

猥亵高频词

词云

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。