Polygraph的电影对话数据集：探索银幕背后的语言力量

最新推荐文章于 2025-02-27 22:11:27 发布

柳旖岭

最新推荐文章于 2025-02-27 22:11:27 发布

阅读量535

点赞数 3

本文链接：https://blog.csdn.net/gitblog_00008/article/details/139670255

版权

Polygraph的电影对话数据集：探索银幕背后的语言力量

去发现同类优质开源项目:https://gitcode.com/

项目介绍

在数字时代，数据分析成为解读人类行为和社会趋势的关键工具。Polygraph的电影对话数据集正是这样一个独特的资源，它深入挖掘了电影中的语言使用情况，提供了一个前所未有的视角来观察性别在影视作品中的话语分布。这个由Polygraph团队精心维护的数据集包含了近200部经典与现代影片中角色对话语料的详尽统计，旨在揭示电影世界中的性别差异。

项目技术分析

数据集的核心文件是character_list5.csv和meta_data7.csv。前者详细记录了每个角色的台词量，而后者则提供了包括IMDb标识符在内的额外元信息，如上映年份、国内票房（经通胀调整）。数据处理过程中，原始台词数量被转换为“线”（即一段话），采用平均每行大约10个单词的标准进行换算。然而，在最新的版本中，为了减少混淆，团队已决定回归到直接使用词数作为计量单位。

对于时间序列分析，每分钟的对话数据基于“行”的概念进行量化——假设一分钟内约有14行对话。这种处理方式允许研究人员按半分钟间隔追踪男性和女性角色的对话比例，通过简单的字符串解析即可获得每一分钟内的男女台词数量比。

此外，所有剧本选择及其来源均公开维护在一个共享文档中，保证了数据的透明度和可靠性。