Automatic Extraction of Personality from Text Challenges and Opportunities 阅读笔记

Automatic Extraction of Personality from Text Challenges and Opportunities 阅读笔记


论文地址 https://ieeexplore.ieee.org/document/9005467/


摘要

在这项研究中,我们研究了从文本中提取人格特质的可能性。我们通过让专家在来自多个在线来源的大量文本中注释个性特征来创建了一个大数据集。从这些带注释的文本中,我们选择了一个样本,并进行了进一步的注释,得到了两个数据集 (一个是大型低可靠性的数据集, 另一个是小型高可靠性的数据集)。然后我们使用这两个数据集来训练和测试几种机器学习模型,以从文本中提取个性。最后,我们对来自不同领域的野生数据集进行了评估。我们的结果表明,基于小型高可靠性数据集的模型比基于大型低可靠性数据集的模型表现更好。而且基于小型高可靠性数据集的语言模型的性能要优于随机Baseline方法。最后,结果表明,在野生数据集测试时,我们最好的模型的性能没有比随机基准更好。我们的结果表明,从文本中确定人格特征仍然是一个挑战,并且在野生数据集测试之前无法对模型性能做出明确的结论。

1. 介绍

THE BIG FIVE 模型, 把人的个性分为5种类型:

开放性(openness):具有想象、审美、情感丰富、求异、创造、智能等特质。
责任心(conscientiousness):显示胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点。
外倾性(extroversion):表现出热情、社交、果断、活跃、冒险、乐观等特质。
宜人性(agreeableness):具有信任、利他、直率、依从、谦虚、移情等特质。
神经质性(neuroticism):难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱等情绪的特质,即不具有保持情绪稳定的能力

在前几年心理学专家和计算机专家联合在一起用于从一些社交媒体的活动来探究个性,但是随着Facebook剑桥分析丑闻, 使得种方式的研究遭到了怀疑,于是更多的研究倾向于从不同的一些资源中得到文本来提取个性。

近几年这些工作得到了一些进展,可以从相关工作中看到,但是我们发现我们对于训练好的模型,在一些野外的数据集上进行测试的时候,效果其实是非常有限的。

这篇文章旨在去讨论三个问题

  • 创造一个模型,它能够有效的提取人格特点
  • 探究 那些大数据集,但是质量不高数据集小,但是质量很高的数据集上进行训练出来的模型的效果进行比较
  • 评估以上两个数据集上训练出来的模型 对于其他数据集表现,

2. 相关工作

2.1 回归方法

  • myPersonality 数据集

    M. Kosinski 使用 组合逻辑回归和线性回归来对此数据集上的个性进行训练,最好的结果是58.83%,

  • Bayesian MultinomialRegression model

    S. Argamon, 使用贝叶斯多项回归,对一个长文本的数据集进行特征提取,得到65.7的准确率了

  • 微博数据集

    使用多种回归方法,对微博的444个用户的数据进行特征提取,使用的是MAPE进行评估。

2.2 深度神经网络

  • Kalghatgi 使用神经网络来分析推特用户的文本信息, 来预测其性格特点。
  • Pennebaker 使用深度神经网络来对2469篇文章样本,将进行分析,并且预测其发布者的性格,文章过滤的所有句子词数为空的句子,并且分类标准是一个二分类问题
  • T. Tandera, Hendro,等人,使用深度神经网络,对两个数据集进行训练, 一个是myPersonality 的250个Facebook用户发布的10000个文本, 另一个则是使用ApplyMagicSauce 工具来分析150个Facebook用户文本数据集。

3. 模型训练

在这里插入图片描述

使用了 SVR 和 LM 来当做分类器, 进行特征提取, 用爬虫来收集数据,然后用学生来对数据进行标注,最后使用SVR和 LM 预训练模型来进行预测, 其中 预训练模型是使用了ULMFiT , 结果使用MAE, MSE来进行预测

其优点有

  • 用于实现像CV领域的迁移学习,并可以用于任意NLP任务。
  • 提出了一些训练的策略,比如discriminative fine-tuning、slanted triangular learning rates、gradual unfreezing等。
  • 在6个文本分类的任务上表现不俗,甚至提升了18~24%。
  • 可以用少量样本训练。
  • 有充足的源码、预训练模型等

其具体细节可以参考https://blog.csdn.net/Magical_Bubble/article/details/89493430

测试集的结果显示:使用与训练模型的表现会更好

4. 野生数据集上的个性探测

我们把训练好的模型放到野生数据集上进行训练,我们发现在小但可靠的数据集上的准确率要更大。

s\lenovo\AppData\Roaming\Typora\typora-user-images\1590821146067.png)]

5. 结论

  • 将少量高质量的训练数据训练出的模型性能优于基于大量单独注释数据的模型
  • 该模型无法可靠地从文本中提取人们的个性

6. 心得

  • 给出了如何去创建一个数据集, 其中的随机选择和数据爬取很有借鉴意义
  • 启示我们数据集还是很重要的, 宁愿高质量,不用低质量。 不过BERT模型就是从大量语料中训练出来的预训练模型,质量的话也不算太高, 但是BERT效果很好, 所以这一点还需要考虑一下
  • 总体来说并不是非常的有较为新的方法
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
街道树木从移动激光雷达点云中的提取和分割是一项基于激光雷达技术的任务,旨在识别和定位城市街道上的树木。移动激光雷达通过扫描周围环境并记录返回的激光脉冲来获取三维点云数据。在进行树木提取和分割任务时,需要对点云数据进行处理和分析。 首先,对点云数据进行预处理,包括去除噪声和离群点。然后,使用聚类算法将点云数据分为不同的群集。由于树木通常具有密集且连续的点云分布,聚类算法可以识别出树冠的形状和边界。 接下来,使用分割技术将树木从其他环境中的点云分离出来。分割方法可以基于点云的特征信息,如高度、颜色和形状等。通过分析这些特征信息,可以将树木与其他地面上的物体(如建筑物、道路、车辆等)区分开来。 在进行分割后,可以应用形态学和滤波等算法对树木进行形态学特征的提取和优化。这些操作有助于进一步减少噪声和提高树木的准确性。 最后,根据树木的位置信息,可以创建树木分布地图或树木数据库,用于城市规划、环境监测和生态保护等领域。这些信息可以帮助城市管理者更好地了解和保护城市绿化资源。 总的来说,街道树木从移动激光雷达点云中的提取和分割是一项技术复杂的任务,通过对点云数据进行处理和分析,可以准确地定位和识别出城市街道上的树木,为城市绿化管理提供有价值的信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值