【论文笔记】PANDORA Talks: Personality and Demographics on Reddit

Feeedforward

已于 2022-11-14 20:02:52 修改

阅读量1.9k

点赞数 1

分类专栏：论文笔记 NLP 文章标签：自然语言处理人工智能深度学习论文阅读

于 2022-01-14 16:44:17 首次发布

本文链接：https://blog.csdn.net/m0_47779101/article/details/122497720

版权

NLP 同时被 2 个专栏收录

31 篇文章

订阅专栏

论文笔记

23 篇文章

订阅专栏

PANDORA Talks: Personality and Demographics on Reddit

会议：NAACL2021 Social Media Workshop
原文：链接
数据集申请：链接

Abstract

本文提出了一个大规模人格数据集PANDORA，标注有三种人格模型以及人口统计数据，如年龄、性别、地址。此外，本文进行了三个实验展示了该数据集的有效性。

1. Introduction

基于文本的人格研究进展相较于人口统计变量的研究是滞后的，主要是两个原因

标注人格的数据集太稀少了。
从文本中推断用户人格很难。
现有的数据集存在着许多严重的限制：作者和评论文本的数量很少，评论文本长度有限，非匿名性，话题偏置。

上述限制在MBTI9K NAACL2018数据集中已基本解决，但也有几个缺点：

MBTI人格模型的有效性不足，所以没有被用于心理学研究。可用大五人格模型替代，但是大五人格标签难以获得。
缺乏人口统计学变量，限制了模型的可解释性和在社会语言学中的使用。

为解决上述问题，提出PANDORA数据集，包含10K+个用户发表的17M+评论，并且用三种人格模型标注（部分地），其中有1.6K用户标注了其大五人格得分，他们一共发表了3M+评论。

通过三个实验展示了该数据集的有效性：

使用MBTI和九型人格标签来预测大五人格，前两者模型的数据多，我们发掘了不同人格模型的特征在文本中的表现之间的相关性。
展示了完整的心理人口统计数据如何帮助确定性别分类中的偏见。
展示了该数据集在社会科学中的有效性：在现有的心理学理论的基础上，对哲学倾向和某些心理人口统计变量进行了验证性和探索性的分析。

2. Background and Related Work

介绍两种人格模型的基本概念和特点。

MBTI通过四个维度（dichotomie，二分）来定义16种人格类型。
- Introversion/Extraversion，注意力方向（外向/内向）
- Sensing/iNtuition，认知方式（感觉/直觉）
- Thinking/Feeling ，判断方式（理性/感性）
- Judging/Perceiving ，生活方式（主观/客观）
- 缺点：low validity（低效度，猜测是有效性不够之意）。
FFM（大五人格）将人描述为五种人格特征的连续体。
- Extraversion，外倾性。表现出热情、社交、果断、活跃、冒险、乐观等特质。
- Agreeableness，宜人性。具有信任、利他、直率、依从、谦虚、移情等特质。
- Conscientiousness，责任心。显示胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点。
- Neuroticism，神经质性。难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱等情绪的特质，即不具有保持情绪稳定的能力。
- Openness，开放性。具有想象、审美、情感丰富、求异、创造、智能等特质。
有研究已表明，人格与一些人口统计学变量有关。如性别、年龄、地址。例如，女性在宜人性、外向性、责任心和神经质方面的得分高于男性。

NLP和人格研究的发展。

早期研究特点。
近年来关注于Facebook和Reddit，但是获得大规模人格数据集存在标注困难和隐私问题。
PANDORA这一类大规模多标签数据集可以用来开放新框架、降低过拟合风险。

PANDORA的另一作用：基于人口统计数据去除偏置。

3. PANDORA Dataset

Reddit的特点：匿名，用户多，网站被组织为不同的话题（subreddits）。适合社会计算语言学的研究。
MBTI和九型人格标签

MBTI9K数据集依赖用户的**flairs（用户在某一话题上的自我描述、自我介绍）**来抽取用户的MBTI类型。在MBTI相关的话题上用户会自我报告他们的MBTI人格类型测试结果，偶尔也会报告他们的九型人格类型（Enneagram）。PANDORA有9084个用户标注了MBTI标签，额外有793人标注了九型人格标签。
大五人格标签的抽取

问题和挑战

大五人格测试结果是用户在五个维度上的得分，这与MBTI和九型人格的结果是显示的人格类型不同。且，分数格式不是标准化的，而且用户通常不在flairs中自我报告，而是在某些提到特定在线测试的评论中报告的。
标签的抽取：半自动抽取的方式
- 检索存在大五人格评测链接的帖子，确定是什么测试，利用正则表达式从评论中抽取人格得分，抽取失败的手动抽取。结果：得到1027个用户的得分，来自12个不同的测试。
- 对于没有提供链接的用户，在1008个用户的报告上训练一个测试分类器，然后利用这个分类器来识别他们的测试链接，紧接着重复上述抽取步骤。又得到了额外的600个用户的得分，总计1608个用户大五人格得分。
Big5得分的正则化、规范化

HEXACO、Truity是两种人格测试工具。有393名用户同时标注了MBTI和FFM。对标注有Big5标签的用户，检索其2015年以来的所有评论添加到MBTI9K数据集中。最后共有10288名用户，包括17940062名用户。

人口统计变量标签

从用户的flairs和comments的自我报告中抽取。并对地区做了规范化，映射到大洲、国家代码等。

数据分析

Big 5的平均得分上，more open,average on neuroticism,less extraverted,agreeable,and conscientious。(注：这对我们利用此数据集的工作可能会产生一些影响。)
分析了不同性别的人格特点。
MBTI模型、九型人格模型和Big 5具有较高的相关性。

4. Experiments

利用MBTI/Enneagram来预测大五人格。

利用PANDORA中更丰富的MBTI/九型人格标签，从文本中预测大五人格。

假设大量的MBTI/Enneagram标签可以缓解其心理效度上的不足，并且基于不同人格模型之间具有中等到强大的相关性和我们具有大量多标签数据的基础上来进行该实验。
- 将该任务视为一个领域自适应任务。将MBTI/Enneagram标签迁移到Big 5上。
- 将数据集划分为三个子集。
  - M+B+：同时拥有MBTI和Big5标签的用户评论，n=382。此子集视为领域自适应的源集。（source set）
  - M+B-：拥有MBTI标签但是没有Big5标签的用户评论，n=8691。
  - M-B+：拥有Big5标签但是没有MBTI标签的用户评论，n=1588。此子集视为领域自适应的目标集。（target set）
- 在M+B-上训练四个基于文本的MBTI分类器，每个分类器对应一个MBTI维度。将这些分类器应用于M+B+上，获得了MBTI预测的类型级精度为45%。分类器输出的概率值，可以解释为相应的MBTI维度的分数。（注：文中的gold label是何意？）
- 因为大多数Big5特征与一个以上的MBTI维度显著相关，故我们使用上述的概率（得分）作为特征来训练五个回归模型，每个模型对应一个大五人格维度。
  - 将两个分类器应用在M-B+上：使用MBTI分类器去获得MBTI四个维度的分数(在M-B+)，然后将其输入到大五人格预测模型中来预测五个特征的得分。
性别分类偏置
哲学倾向

5. Prediction Models

提出了从PANDORA数据集中的用户评论预测其人格和人口统计学变量的基准模型。

考虑如下几个特征：
- N-grams
- Stylistic，单词、字符和音节的计数，单音节/多音节的单词，长长的单词，独特的单词等许多指标。（Textacy）
- Dictionaries，词典。
- Gender
- Subreddit distributions
- Subreddit other
- Name entities，使用Spacy抽取。
- Part-of-speech
- Predictions
使用LR模型和NN模型进行实验，对用户评论用BERT编码为一个1024维向量，然后输入到CNN中。
5折交叉验证，利用regression F-test指标来选择最佳的K个特征。
实验结果表明，仅使用N-gram特征时LR模型性能最好。对于Big 5预测，将MBTI和Enneagram作为特征可以显著提升效果。