这是一个可能博主无法在本学期课程上实现的课题,在此把已有成果分享出来,希望助力后来者的研究。由于博主为完全无基础的大一学生,因此记录会从最基础开始
一.引入和步骤简介
近年来 ,自杀意念的表达不再局限于口头形式,通过电子手段(包括论坛、博客、轻博客、即时消息、电子邮件、私信等)表达痛苦和自杀意念的情况逐渐增多。青年人是网络平台的主要用户,也是自杀的高风险人群,网络平台的数据公开化为自杀预测的机器学习提供了数据来源。
——《机器学习在网络社交平台自杀预测领域的研究进展》
通过对文本数据进行分析,同时结合机器学习,我们可以构建识别自杀倾向的模型。更进一步,我们可以通过定时爬虫等方式实现实时监测(由于技术限制,这一步并未深入开展研究)。
那么,我们的主要步骤,就如下了。
二.已有数据集
1.在csdn内找到了一个走饭评论区的留言,走饭的微博现在已经被隐藏,这些数据对我们有着重要意义,这里贴出原帖地址,感兴趣的朋友们可以自行下载
https://blog.csdn.net/u010751000/article/details/125326005?spm=1001.2014.3001.5506
2.在github中找到了一个比较初步的svm自杀文本分类模型,其中包含了数据集,在此感谢这位开源作者
https://oan40u20qxc.feishu.cn/record/YDpzrapx5ea7BpcVNfDcIMUbnQe
三.文本预处理
人工标注数据
常用的是存储于不同的txt文件中,或者存储于csv文件中,并且用1和0标注
jieba分词器
jieba分词器是一种非常便利的分词工具,同时可以基于TF-IDF或者TextTRank算法的关键词提取,此外,jieba分词还可以导入自定义词典
特征选择
TF-IDF文本表示法、n-gram算法可以参考。
四.简单机器学习模型的选择
由于博主只是具有初步python基础的新人,在此,通过阅读论文,我们选择了随机森林作为分类模型。
在初步的机器学习中,有几个文本分类模型,它们分别是随机森林、支持向量机、朴素贝叶斯、逻辑回归。在博主阅读的论文中,svm和随即森林使用的比较多,并且总体而言随机森林算力消耗小,准确率高。以下为其中两篇论文的结果,研究时也可以重点参考。《基于文本信息的自杀倾向检测》
《基于中文微博语言特征的自杀意念检测》
五.这个研究方向的特殊性
1.在论文《基于中文微博语言特征的自杀意念检测》中,研究团队构建了自杀词典,并且对词性特征进行了研究,以提高模型的准确性。
之前有研究指出,有自杀行为的用户高频率地使用人称代词、表达计划的词以及多功 能词,但是却很少使用动词,研究还发现严重抑郁症患者和有较大压力的人在产生自 杀行为时较多地使用第二人称代词。——来源论文
2.在论文《基于文本信息的自杀倾向检测》中,团队加入了人工指标,例如敏感发言时间,因为在不同时间段自杀倾向文本的可能性也有所变化。
希望你能够成功!也欢迎与我交流