任务:
论文代码统计,统计所有论文出现代码的相关统计;
使用正则表达式统计代码连接、页数和图表数据;
数据处理步骤:
在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。
确定数据出现的位置;
使用正则表达式完成匹配;
完成相关的统计;
正则表达式:
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
具体代码实现:
首先统计论文页数,也就是在comments字段中抽取pages和figures和个