自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Datawhale Team-learning 数据分析task5

任务5:作者信息关联5.1 任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘5.2 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;5.3 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Gra

2021-01-26 01:19:22 86

原创 Datawhale Team-learning 数据分析task4

任务4:论文种类分类4.1 任务说明1、学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;2、学习内容:使用论文标题完成类别分类;3、学习成果:学会文本分类的基本方法、TF-IDF等;4.2 数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:1、对论文标题和摘要进行处理;2、对论文类别进行处理;3、构建文本分类模型;4.3 文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-

2021-01-22 11:56:22 91 1

原创 Datawhale Team-learning 数据分析task3

任务说明1、任务主题:论文代码统计,统计所有论文出现代码的相关统计;2、任务内容:使用正则表达式统计代码连接、页数和图表数据;3、任务成果:学习正则表达式统计;数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。1、确定数据出现的位置;2、使用正则表达式完成匹配;3、完成相关的统计;1、数据读取导入需要的模块并读取数据#导入所需的packageimport seaborn as s

2021-01-19 15:42:58 111

原创 Datawhale Team-learning 数据分析task2

任务说明1、任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;2、任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;3、任务成果:学习 Pandas 的字符串操作;1、数据读取# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请

2021-01-16 15:37:02 149

原创 Datawhale Team-learning 数据分析task1

标题Datawhale Team-learning 数据分析task1目录1.1任务说明1.2数据集介绍1.3arxiv论文类别介绍1.4具体代码实现1.4.1导入package并读取原始数据1.4.2数据预处理1.4.3数据分析及可视化1.1任务说明任务主题:论文数量统计,即统计2019年全年计算机各方向论文数量赛题的理解、使⽤ Pandas 读取数据并进⾏统计;学习 Pandas 的基础操作;1.2数据集介绍数据集来源:: https://www.kaggle.com/Cor

2021-01-13 19:38:17 259

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除