python+正则表达式提取“参考文献”中的作者名，发表日期等信息

最新推荐文章于 2025-02-21 16:40:04 发布

爱学习的蒋蒋

最新推荐文章于 2025-02-21 16:40:04 发布

阅读量8.7k

点赞数 6

分类专栏： python 文章标签： python re模块正则表达式 pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34684171/article/details/77648998

版权

此文章为作者原创，如转载请先联系作者。

一、任务描述

如下图（excel表截图，输出示例.xlsx）：

这里写图片描述

现需要从上图V列“参考文献”里提取出从N列到U列（除Q列以外，Q列文献期的内容不存在）

二、思考

第一步，观察数据

以参考文献下的第一个数据为例：

这里写图片描述

首先观察到双引号里的内容是“文献题目”，“1990”是文献年，”Acker， Joan”是文献作者，“Gender and Society”是文献期刊，4是文献卷，139-58中139是文献起始页，58是页数，则文献结束页就是197。

当然这是理想的情况，扫视一遍数据，发现还是有很多不属于这个格式的。

像下面几种数据

Acker, Joan. 2006. Class Questions: Feminist Answers.
Lanham, MD: Rowman & Littlefíeld.

这样的数据大概有两三个。他们是没有文献卷和文献起始页和页数的，有的文献题目还不在双引号内。

Charles, Maria and David B. Grusky. 2007. “Egalitari-
anism and Gender Inequality.” Pp. 327-42 in The
Inequality Reader: Contemporary and Foundational
Readings in Race, Class, and Gender, edited by D.
Grusky and S. Szelényi. Boulder, CO: Westview Press.

这样的完全不同格式的数据只有这一个。

总之，大部分数据

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。