数据挖掘实战-前沿分析-Task01

Lyndsey

于 2021-01-13 15:14:08 发布

阅读量237

点赞数 1

分类专栏： # 数据挖掘实战

本文链接：https://blog.csdn.net/hahameier/article/details/112562760

版权

本篇博客介绍了数据挖掘的任务，涉及爬取arxiv网站上的论文数据，进行分类统计，重点关注计算机领域论文的分布。文章讨论了列表推导式嵌套循环的使用，正则表达式的理解，并提供了正则表达式在线解析工具链接。同时，博主分享了在数据整合过程中遇到的错误，即在进行表连接时因正则表达式问题导致的空表，最终找到了错误的原因——正则表达式缺少一个空格。

摘要由CSDN通过智能技术生成

内容介绍：

本次任务主要是一个数据准备的工作，通过爬虫获取arxiv上面的数据，然后对论文进行一个分类，查看一下所有类别论文的数量，以及计算机领域里面论文的分布情况。

问题整理：

1、列表推导式嵌套循环理解。

unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])

等价于以下的代码：

list1 = []
for l in [x.split(' ') for x in data['categories']]:
    for i in l:
       list1.append(i) 
list1

2、正则表达式的理解。
re.sub(r"(.*) \((.*)\)",r"\1",raw)：

.表示匹配任意1个字符
*表示匹配前一个字符出现0次多次或者无限次
(表示匹配“(”
具体的这个语句，(.)为括号前所有的str，((.))为后面括号的str

例如：
原始的str为：Astrophysics(astro-ph)
经过 re.sub(r"(.)((.))",r"\2",raw)后的str为 astro-ph
经过 re.sub(r"(.)((.))",r"\1",raw)后的str为 Astrophysics

正则表达式图解析：https://regexper.com/ 或者这个：https://regexr.com/

错误解答：

在表1左连接表2的时候，发现结果是空表。分步骤看，连接后的表中显示原表2的列都是空值，排查问题可能出在了哪里呢。首先应该思考键的问题，排查后发现两个表的键不一致（虽然输出的DataFrame看着是一致的）。进一步排查可以发现，是在正则表达式那块有些小问题。

错误写法：

raw = t.text
level_3_code = re.sub(r"(.*)\((.*)\)"

最低0.47元/天解锁文章

Lyndsey

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
数据挖掘实战-前沿分析-Task01

内容介绍：本次任务主要是一个数据准备的工作，通过爬虫获取arxiv上面的数据，然后对论文进行一个分类，查看一下所有类别论文的数量，以及计算机领域里面论文的分布情况。问题整理：1、列表推导式嵌套循环理解。unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])等价于以下的代码：list1 = []for l in [x.split(' ') for x in data[
复制链接

扫一扫

专栏目录