社交平台文本自杀风险识别

LinkyuW

已于 2024-05-06 23:37:03 修改

阅读量1.1k

点赞数 26

文章标签： nlp 分类机器学习

于 2024-05-06 23:35:21 首次发布

本文链接：https://blog.csdn.net/2301_80917679/article/details/138511682

版权

这是一个可能博主无法在本学期课程上实现的课题，在此把已有成果分享出来，希望助力后来者的研究。由于博主为完全无基础的大一学生，因此记录会从最基础开始

一.引入和步骤简介

近年来，自杀意念的表达不再局限于口头形式，通过电子手段（包括论坛、博客、轻博客、即时消息、电子邮件、私信等）表达痛苦和自杀意念的情况逐渐增多。青年人是网络平台的主要用户，也是自杀的高风险人群，网络平台的数据公开化为自杀预测的机器学习提供了数据来源。

——《机器学习在网络社交平台自杀预测领域的研究进展》

通过对文本数据进行分析，同时结合机器学习，我们可以构建识别自杀倾向的模型。更进一步，我们可以通过定时爬虫等方式实现实时监测（由于技术限制，这一步并未深入开展研究）。

那么，我们的主要步骤，就如下了。

二.已有数据集

1.在csdn内找到了一个走饭评论区的留言，走饭的微博现在已经被隐藏，这些数据对我们有着重要意义，这里贴出原帖地址，感兴趣的朋友们可以自行下载
https://blog.csdn.net/u010751000/article/details/125326005?spm=1001.2014.3001.5506

2.在github中找到了一个比较初步的svm自杀文本分类模型，其中包含了数据集，在此感谢这位开源作者
https://oan40u20qxc.feishu.cn/record/YDpzrapx5ea7BpcVNfDcIMUbnQe

三.文本预处理

人工标注数据
常用的是存储于不同的txt文件中，或者存储于csv文件中，并且用1和0标注

jieba分词器
jieba分词器是一种非常便利的分词工具，同时可以基于TF-IDF或者TextTRank算法的关键词提取，此外，jieba分词还可以导入自定义词典
特征选择
TF-IDF文本表示法、n-gram算法可以参考。

四.简单机器学习模型的选择

由于博主只是具有初步python基础的新人，在此，通过阅读论文，我们选择了随机森林作为分类模型。
在初步的机器学习中，有几个文本分类模型，它们分别是随机森林、支持向量机、朴素贝叶斯、逻辑回归。在博主阅读的论文中，svm和随即森林使用的比较多，并且总体而言随机森林算力消耗小，准确率高。以下为其中两篇论文的结果，研究时也可以重点参考。《基于文本信息的自杀倾向检测》