![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 89
Alex好好干饭
这个作者很懒,什么都没留下…
展开
-
数据分析-task5: 作者信息关联
文章目录1. 任务说明2. 数据处理步骤3. 社交网络分析3.1 图类型3.2 图统计指标4 具体代码以及讲解1.读数据2.创建作者链接的无向图3.将作者关系图进行绘制4.得到作者之间的距离5.最大连通子图绘图显示1. 任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘2. 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者原创 2021-01-23 23:10:03 · 183 阅读 · 0 评论 -
数据分析-task4:论文种类分类
文章目录任务说明数据处理步骤文本分类思路具体代码实现以及讲解通用部分:数据读取+预处理+类别编码1.字段读取2.预处理:拼接+整理格式扩展知识3.类别编码思路1思路2任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论原创 2021-01-22 22:56:24 · 391 阅读 · 2 评论 -
数据分析-task3:论文代码统计
文章目录任务说明数据处理步骤正则表达式任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;正则表达式正则表达式(regular expression)描述了一种字符串匹配原创 2021-01-18 23:07:20 · 323 阅读 · 2 评论 -
数据分析-任务2:论文作者统计
文章目录2.1 任务说明2.2 数据处理步骤2.3 字符串处理2.4 具体代码实现以及讲解2.4.1 数据读取2.4.2 数据统计2.1 任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;2.2 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对原创 2021-01-14 15:44:03 · 855 阅读 · 2 评论 -
数据分析-任务1:论文数据统计.md
文章目录论文数据统计1.1 任务说明1.2 数据集介绍1.3 arxiv论文类别介绍1.4 具体代码实现以及讲解论文数据统计1.1 任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目1.2 数据集介绍数据集来源:数据集链接;数据集的格式如下:id:arXiv ID,可用于原创 2021-01-10 22:25:40 · 560 阅读 · 0 评论