社交平台文本自杀风险识别

这是一个可能博主无法在本学期课程上实现的课题,在此把已有成果分享出来,希望助力后来者的研究。由于博主为完全无基础的大一学生,因此记录会从最基础开始

一.引入和步骤简介

近年来 ,自杀意念的表达不再局限于口头形式,通过电子手段(包括论坛、博客、轻博客、即时消息、电子邮件、私信等)表达痛苦和自杀意念的情况逐渐增多。青年人是网络平台的主要用户,也是自杀的高风险人群,网络平台的数据公开化为自杀预测的机器学习提供了数据来源。

——《机器学习在网络社交平台自杀预测领域的研究进展》

通过对文本数据进行分析,同时结合机器学习,我们可以构建识别自杀倾向的模型。更进一步,我们可以通过定时爬虫等方式实现实时监测(由于技术限制,这一步并未深入开展研究)。

那么,我们的主要步骤,就如下了。

开始
寻找数据集
文本数据预处理
文本特征选择,向量化表示
训练模型
结束

二.已有数据集

1.在csdn内找到了一个走饭评论区的留言,走饭的微博现在已经被隐藏,这些数据对我们有着重要意义,这里贴出原帖地址,感兴趣的朋友们可以自行下载
https://blog.csdn.net/u010751000/article/details/125326005?spm=1001.2014.3001.5506

2.在github中找到了一个比较初步的svm自杀文本分类模型,其中包含了数据集,在此感谢这位开源作者
https://oan40u20qxc.feishu.cn/record/YDpzrapx5ea7BpcVNfDcIMUbnQe

三.文本预处理

开始
人工标注数据
重复值剔除
分词
去除停用词
进行特征选择
实现文本向量化表示
结束

人工标注数据
常用的是存储于不同的txt文件中,或者存储于csv文件中,并且用1和0标注

jieba分词器
jieba分词器是一种非常便利的分词工具,同时可以基于TF-IDF或者TextTRank算法的关键词提取,此外,jieba分词还可以导入自定义词典
特征选择
TF-IDF文本表示法、n-gram算法可以参考。

四.简单机器学习模型的选择

由于博主只是具有初步python基础的新人,在此,通过阅读论文,我们选择了随机森林作为分类模型。
在初步的机器学习中,有几个文本分类模型,它们分别是随机森林、支持向量机、朴素贝叶斯、逻辑回归。在博主阅读的论文中,svm和随即森林使用的比较多,并且总体而言随机森林算力消耗小,准确率高。以下为其中两篇论文的结果,研究时也可以重点参考。基于文本信息的自杀倾向检测《基于文本信息的自杀倾向检测》

基于中文微博语言特征的自杀意念检测
《基于中文微博语言特征的自杀意念检测》

五.这个研究方向的特殊性

1.在论文《基于中文微博语言特征的自杀意念检测》中,研究团队构建了自杀词典,并且对词性特征进行了研究,以提高模型的准确性。
在这里插入图片描述

之前有研究指出,有自杀行为的用户高频率地使用人称代词、表达计划的词以及多功 能词,但是却很少使用动词,研究还发现严重抑郁症患者和有较大压力的人在产生自 杀行为时较多地使用第二人称代词。——来源论文

2.在论文《基于文本信息的自杀倾向检测》中,团队加入了人工指标,例如敏感发言时间,因为在不同时间段自杀倾向文本的可能性也有所变化。

希望你能够成功!也欢迎与我交流

  • 25
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值