python+正则表达式提取“参考文献”中的作者名,发表日期等信息

此文章为作者原创,如转载请先联系作者。

一、任务描述

如下图(excel表截图,输出示例.xlsx):

这里写图片描述

现需要从上图V列“参考文献”里提取出从N列到U列(除Q列以外,Q列文献期的内容不存在)

二、思考

第一步,观察数据

以参考文献下的第一个数据为例:

这里写图片描述

首先观察到双引号里的内容是“文献题目”,“1990”是文献年,”Acker, Joan”是文献作者,“Gender and Society”是文献期刊,4是文献卷,139-58中139是文献起始页,58是页数,则文献结束页就是197。

当然这是理想的情况,扫视一遍数据,发现还是有很多不属于这个格式的。

像下面几种数据


Acker, Joan. 2006. Class Questions: Feminist Answers.
Lanham, MD: Rowman & Littlefíeld.


这样的数据大概有两三个。他们是没有文献卷和文献起始页和页数的,有的文献题目还不在双引号内。


Charles, Maria and David B. Grusky. 2007. “Egalitari-
anism and Gender Inequality.” Pp. 327-42 in The
Inequality Reader: Contemporary and Foundational
Readings in Race, Class, and Gender, edited by D.
Grusky and S. Szelényi. Boulder, CO: Westview Press.


这样的完全不同格式的数据只有这一个。

总之,大部分数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值