Automatic Extraction of Personality from Text Challenges and Opportunities 阅读笔记

最新推荐文章于 2021-12-20 17:08:00 发布

B站：阿里武

最新推荐文章于 2021-12-20 17:08:00 发布

阅读量732

点赞数 1

分类专栏：个性分析文章标签：个性识别 NLP 自然语言处理文本处理

本文链接：https://blog.csdn.net/qq874455953/article/details/106441504

版权

个性分析专栏收录该内容

15 篇文章 4 订阅

订阅专栏

Automatic Extraction of Personality from Text Challenges and Opportunities 阅读笔记

论文地址 https://ieeexplore.ieee.org/document/9005467/

摘要

在这项研究中，我们研究了从文本中提取人格特质的可能性。我们通过让专家在来自多个在线来源的大量文本中注释个性特征来创建了一个大数据集。从这些带注释的文本中，我们选择了一个样本，并进行了进一步的注释，得到了两个数据集（一个是大型低可靠性的数据集，另一个是小型高可靠性的数据集）。然后我们使用这两个数据集来训练和测试几种机器学习模型，以从文本中提取个性。最后，我们对来自不同领域的野生数据集进行了评估。我们的结果表明，基于小型高可靠性数据集的模型比基于大型低可靠性数据集的模型表现更好。而且基于小型高可靠性数据集的语言模型的性能要优于随机Baseline方法。最后，结果表明，在野生数据集测试时，我们最好的模型的性能没有比随机基准更好。我们的结果表明，从文本中确定人格特征仍然是一个挑战，并且在野生数据集测试之前无法对模型性能做出明确的结论。

1. 介绍

THE BIG FIVE 模型，把人的个性分为5种类型：

开放性（openness）：具有想象、审美、情感丰富、求异、创造、智能等特质。
责任心（conscientiousness）：显示胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点。
外倾性（extroversion）：表现出热情、社交、果断、活跃、冒险、乐观等特质。
宜人性（agreeableness）：具有信任、利他、直率、依从、谦虚、移情等特质。
神经质性（neuroticism）：难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱等情绪的特质，即不具有保持情绪稳定的能力

在前几年心理学专家和计算机专家联合在一起用于从一些社交媒体的活动来探究个性，但是随着Facebook剑桥分析丑闻，使得种方式的研究遭到了怀疑，于是更多的研究倾向于从不同的一些资源中得到文本来提取个性。

近几年这些工作得到了一些进展，可以从相关工作中看到，但是我们发现我们对于训练好的模型，在一些野外的数据集上进行测试的时候，效果其实是非常有限的。

这篇文章旨在去讨论三个问题

创造一个模型，它能够有效的提取人格特点
探究那些大数据集，但是质量不高和数据集小，但是质量很高的数据集上进行训练出来的模型的效果进行比较
评估以上两个数据集上训练出来的模型对于其他数据集表现，

2. 相关工作

2.1 回归方法

myPersonality 数据集

M. Kosinski 使用组合逻辑回归和线性回归来对此数据集上的个性进行训练，最好的结果是58.83%，
Bayesian MultinomialRegression model

S. Argamon, 使用贝叶斯多项回归，对一个长文本的数据集进行特征提取，得到65.7的准确率了
微博数据集

使用多种回归方法，对微博的444个用户的数据进行特征提取，使用的是MAPE进行评估。

2.2 深度神经网络

Kalghatgi 使用神经网络来分析推特用户的文本信息，来预测其性格特点。
Pennebaker 使用深度神经网络来对2469篇文章样本，将进行分析，并且预测其发布者的性格，文章过滤的所有句子词数为空的句子，并且分类标准是一个二分类问题
T. Tandera, Hendro,等人，使用深度神经网络，对两个数据集进行训练，一个是myPersonality 的250个Facebook用户发布的10000个文本，另一个则是使用ApplyMagicSauce 工具来分析150个Facebook用户文本数据集。

3. 模型训练

在这里插入图片描述

使用了 SVR 和 LM 来当做分类器，进行特征提取，用爬虫来收集数据，然后用学生来对数据进行标注，最后使用SVR和 LM 预训练模型来进行预测，其中预训练模型是使用了ULMFiT ，结果使用MAE， MSE来进行预测

其优点有

用于实现像CV领域的迁移学习，并可以用于任意NLP任务。
提出了一些训练的策略，比如discriminative fine-tuning、slanted triangular learning rates、gradual unfreezing等。
在6个文本分类的任务上表现不俗，甚至提升了18~24%。
可以用少量样本训练。
有充足的源码、预训练模型等

其具体细节可以参考https://blog.csdn.net/Magical_Bubble/article/details/89493430

测试集的结果显示：使用与训练模型的表现会更好