目录
人类在留下语言、文字的过程中,也留下了自己的偏见、态度等主观认知信息(偏见、态度)。词嵌入做为一种词向量模型,可以隐含上下文的情景信息,态度及偏见很容易保留在词向量的某些维度中。通过词向量距离的测算,就可以间接测得不同群体 对 某概念(组织、群体、品牌、地域等)的态度偏见。
偏见
文化中的几何:词嵌入如何捕捉文化社会学的微妙关系
Kozlowski, A.C., Taddy, M. and Evans, J.A., 2019. The geometry of culture: Analyzing the meanings of class through word embeddings. American Sociological Review, 84(5), pp.905-949.
来自芝加哥大学和亚马逊的研究者,针对海量文本资料,将所有词向量分解为性别,阶级和种族三个维度,并通过将不同词向量在这三个维度上的投影来给出该词的性别、阶级和种族属性。本文是对这项工作的解读。
点击查看详细解读 https://mp.weixin.qq.com/s/vhtlIggfSp7GUUXNSocYmA
故事的形态可预期其成功
Toubia, O., Berger, J. and Eliashberg, J., 2021. How quantifying the shape of stories predicts their success. Proceedings of the National Academy of Sciences, 118(26).
通过NLP,分析了电影、电视剧及科研论文的叙事模式,与其成功之间的关系。发现不同类型的文章,由于大众的认知偏好,促成其成功的叙事模式是不同。作为计算社会学的一部分,该研究通过量化分析,确认了面对不同的叙事模式,存在普遍的认知偏好。
点击查看详细解读 https://mp.weixin.qq.com/s/Y0pDte4GeAAqoZhmP8B8WA
童话里都是骗人的?用词向量解析故事中的性别偏见
Xu H, Zhang Z, Wu L, Wang C_J. The Cinderella Complex: Word Embeddings Quantify Gender Stereotypes in Movies and Books. Available from https://arxiv.org/abs/1811.04599. 2019.06.
Caliskan A, Bryson JJ, Narayanan A. Semantics derived automatically from language corpora contain human-like biases. Science. 2017;356: 183–186.
Garg N, Schiebinger L, Jurafsky D, Zou J. Word embeddings quantify 100 years of gender and ethnic stereotypes . Proceedings of the National Academy of Sciences. 2018. pp. E3635–E3644. doi:10.1073/pnas.1720347115
Dowling C. The Cinderella Complex: Women’s Hidden Fear of