数据分析任务3：论文代码统计

最新推荐文章于 2023-02-11 13:49:07 发布

蓝棠

最新推荐文章于 2023-02-11 13:49:07 发布

阅读量249

点赞数

分类专栏：正则表达式论文数据分析 pandas

本文链接：https://blog.csdn.net/qq_43720646/article/details/112856468

版权

数据分析任务3：论文代码统计

Github
数据集
涉及知识点：

正则表达式
数据框中各列处理apply函数和lambda的联合使用data[‘categories’] = data[‘categories’].apply(lambda x: x.split(’ ')[0])
finall函数的返回类型依其正则表达式中（）的个数不同而不同

1.数据处理步骤

在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接，所以我们需要从这些字段里面找出代码的链接。

确定数据出现的位置；
使用正则表达式完成匹配；
完成相关的统计；

2.正则表达式

普通字符：大写和小写字母、所有数字、所有标点符号和一些其他符号

特殊字符：有特殊含义的字符
在这里插入图片描述
限定符

3.代码实现

import json #读取数据
import re #正则表达式
import pandas as pd

读取数据

data = []
with open("E:/datawhale数据分析/arxiv-metadata-oai-2019.json",'r') as f:
    for idx,line in enumerate(f):
        d = json.loads(line)
        d = {
   'abstract':d['abstract'],'categories':d['categories'

最低0.47元/天解锁文章

蓝棠

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
数据分析任务3：论文代码统计

数据分析任务3：论文代码统计Github数据集涉及知识点：正则表达式数据框中各列处理apply函数和lambda的联合使用data[‘categories’] = data[‘categories’].apply(lambda x: x.split(’ ')[0])1.数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接，所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置；使用正则表达式完成匹配；完成相关的统计；
复制链接

扫一扫