数据挖掘实战-前沿分析-Task01

本篇博客介绍了数据挖掘的任务,涉及爬取arxiv网站上的论文数据,进行分类统计,重点关注计算机领域论文的分布。文章讨论了列表推导式嵌套循环的使用,正则表达式的理解,并提供了正则表达式在线解析工具链接。同时,博主分享了在数据整合过程中遇到的错误,即在进行表连接时因正则表达式问题导致的空表,最终找到了错误的原因——正则表达式缺少一个空格。
摘要由CSDN通过智能技术生成

内容介绍:

本次任务主要是一个数据准备的工作,通过爬虫获取arxiv上面的数据,然后对论文进行一个分类,查看一下所有类别论文的数量,以及计算机领域里面论文的分布情况。

问题整理:

1、列表推导式嵌套循环理解。

unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])

等价于以下的代码:

list1 = []
for l in [x.split(' ') for x in data['categories']]:
    for i in l:
       list1.append(i) 
list1

2、正则表达式的理解。
re.sub(r"(.*) \((.*)\)",r"\1",raw)

.表示匹配任意1个字符
*表示匹配前一个字符出现0次多次或者无限次
(表示匹配“(”
具体的这个语句,(.)为括号前所有的str,((.))为后面括号的str

例如:
原始的str为:Astrophysics(astro-ph)
经过 re.sub(r"(.)((.))",r"\2",raw)后的str为 astro-ph
经过 re.sub(r"(.)((.))",r"\1",raw)后的str为 Astrophysics

正则表达式图解析:https://regexper.com/ 或者这个:https://regexr.com/

错误解答:

在表1左连接表2的时候,发现结果是空表。分步骤看,连接后的表中显示原表2的列都是空值,排查问题可能出在了哪里呢。首先应该思考键的问题,排查后发现两个表的键不一致(虽然输出的DataFrame看着是一致的)。进一步排查可以发现,是在正则表达式那块有些小问题。

错误写法:
raw = t.text
level_3_code = re.sub(r"(.*)\((.*)\)"
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值